Коли я не повинен використовувати класифікатор ансамблю?


17

Загалом, у проблемі класифікації, де мета - точно передбачити вибіркову приналежність до класу, коли я не повинен використовувати класифікатор ансамблю?

Це питання тісно пов'язане з тим, чому б не завжди використовувати ансамблеве навчання? . Це питання задає, чому ми не використовуємо ансамблі весь час. Хочеться знати, чи є випадки, коли ансамблі, як відомо, гірші (не просто «не краще і марно витрачаючи час»), ніж еквівалент не ансамблю.

І під "класифікатором ансамблю" я конкретно маю на увазі класифікатори, такі як AdaBoost та випадкові ліси, на відміну, наприклад, від розширеної векторної машини підтримки, що розвивається.


2
Я б не використовував ансамблеві методи, якщо у вас немає різноманітності між окремими методами. Іншими словами, ансамбль корисний, коли ви поєднуєте різноманітний набір методів.
синоптик

2
@forecaster Я не міг не додати дуже хороший документ про те, що автори називають "хорошим" та "поганим" розмаїттям сторінок.bangor.ac.uk/~mas00a/papers/gblkMCS10.pdf в контексті ансамблів
Владислав Довгалеч

@xeon приємна стаття. незалежно від методів машинного навчання, будь то випадковий ліс чи ансамбль (поєднання) різних методів, різноманітність, безумовно, допомагає. За цим стоїть сильна теорія, і це називаєтьсянатуrе і бiологicаллу iнсpirег.
синоптик

Відповіді:


7

Модель, найближча до справжнього процесу генерації даних, завжди буде найкращою і обіграє більшість методів ансамблю. Отже, якщо дані, що надходять від лінійного процесу, lm () буде значно перевершувати випадкові ліси, наприклад:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

Я не рекомендую використовувати класифікатор ансамблю, коли ваша модель повинна бути зрозумілою та зрозумілою. Іноді потрібні прогнози та пояснення прогнозів.

Коли вам потрібно переконати людей, що прогнозам варто вірити, дуже точна модель може бути дуже переконливою, але я намагаюся переконати людей діяти за прогнозами, коли методи занадто складні для рівня їх комфортності.

На мій досвід, більшості людей зручно використовувати лінійні моделі присадок, моделі, які вони могли б оцінити вручну, і якщо ви спробуєте пояснити адаптивне підсилення, гіпер-площини та ефекти взаємодії 5-го рівня, вони відповідатимуть так, ніби ви нарікаєте на них чорну магію.

З іншого боку, люди можуть бути задоволені складністю моделі, але все ж хочуть втілити деяке розуміння. Наприклад, вчені не можуть вважати модель чорної скриньки просуванням людських знань, навіть якщо модель є високоточною.

Аналіз змінної важливості може допомогти зрозуміти, але якщо ансамбль більш точний, ніж лінійна модель добавки, ансамбль, ймовірно, використовує деякі нелінійні ефекти та ефекти взаємодії, на які аналіз змінної важливості не може повністю врахувати.


Не те, що я хотів, але хороші моменти. +1
shadowtalker

3

Я хотів би додати відповідь від бранко. Ансамблі можуть бути дуже конкурентоспроможними і давати дуже хороші результати. Наприклад, в академічних науках це є важливим. У промисловості ансамблі можуть бути занадто важкими для впровадження / підтримки / модифікації / порту. Робота Гофа Гінтона над "Темними знаннями" полягає саме в цьому: як перенести "знання" великого ансамблю в одну легку для переміщення модель. Він зазначає, що ансамблі погані в час тестування: вони надмірно зайві і час обчислень може викликати занепокоєння.

Його команда отримала кілька цікавих результатів, пропоную переглянути його публікації або хоча б слайди. Якщо моя пам’ять хороша, це була одна з гарячих тем 2013 або 2014 років.

Слайди про темні знання можна знайти тут: http://www.ttic.edu/dl/dark14.pdf

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.