Чи AdaBoost менш чи більше схильний до переозброєння?


20

Я читав різні (здавалося б) суперечливі твердження про те, чи AdaBoost (або інші прискорювальні методи) менш чи більше схильні до переозброєння порівняно з іншими методами навчання.

Чи є вагомі підстави вірити тим чи іншим? Якщо це залежить, від чого це залежить? Які причини того, що AdaBoost менш / більше схильний до переозброєння?


1
Моя інтуїція полягає в тому, що вона більше схильна до пересадки, ніж випадковий ліс. Однак алгоритм розроблений, щоб уникнути перевиконання, і, як правило, це не представляє проблеми. Я не маю посилань на це резервне копіювання, але ви можете використовувати caretпакет для перехресної перевірки adaboost, і я виявив, що він зазвичай добре узагальнюється.
Зак

Відповіді:


17

Як ви кажете, багато обговорювалося з цього приводу, і є якась досить важка теорія, яка пішла разом з цим, що, маю визнати, я ніколи не до кінця зрозумів. На моєму практичному досвіді AdaBoost є досить надійним для надмірного оснащення, а LPBoost (підвищення рівня лінійного програмування) ще більше (тому що цільова функція вимагає рідкого поєднання слабких учнів, що є формою контролю за можливостями). Основними факторами, які на це впливають, є:

  • "Сила" "слабких" учнів: Якщо ви користуєтеся дуже простими слабкими учнями, такими як пеньки (дерева рішень на 1 рівні), алгоритми набагато менше схильні до надмірної підготовки. Кожного разу, коли я намагався використовувати більш складні слабкі студенти (наприклад, дерева рішень або навіть гіперплани), я виявляв, що надмірне оснащення відбувається набагато швидше

  • Рівень шуму в даних: AdaBoost особливо схильний до надмірного розміщення на галасливих наборах даних. У цьому налаштуванні переважні регульовані форми (RegBoost, AdaBoostReg, LPBoost, QPBoost).

  • Розмірність даних: Ми знаємо, що в цілому ми відчуваємо більше пристосування у просторах високих розмірів ("прокляття розмірності"), і AdaBoost також може постраждати в цьому відношенні, оскільки це просто лінійна комбінація класифікаторів, які самі страждають від проблеми. Чи настільки він схильний, як інші класифікатори, важко визначити.

Звичайно, ви можете використовувати евристичні методи, такі як набори валідації або кратну перехресну валідацію, щоб встановити параметр зупинки (або інші параметри в різних варіантах), як для будь-якого іншого класифікатора.к


9

Я згоден з більшістю пунктів, згаданих у коментарі до tdc. проте мені доведеться додати і виправити кілька речей.

  • Як показано в L2Boost Пітера Бюльмана, при збільшенні кількості слабких учнів (раундів підсилення) ухил конвергується експоненціально швидко, тоді як дисперсія збільшується на геометрично зменшувані величини, що означає: Це перевищує набагато повільніше, ніж більшість інших методів.
  • У коментарі Зака ​​було помилково сказано, що це кращий випадковий ліс з точки зору надмірності. Це абсолютно неправильно. Насправді, згідно теорії (подивіться оригінальний випадковий лісовий папір від Бреймана), Random Forest абсолютно захищений від перенапруження до тих пір, поки його слабкі класифікатори не переповнюють дані.
  • На відміну від того, що згадується в коментарі до tdc, більшість прискорювальних методів дуже чутливі до шуму маркування і можуть легко перевищувати при наявності шумів від маркування.
  • У наборах даних, де коефіцієнт помилок Байєса далеко не 0 (тобто функції недостатньо дискримінаційні), прискорені методи також легко перевершують. Оскільки вони намагаються звести помилку тренувань до нуля, а насправді навіть оптимальний класифікатор, тобто класифікатор Байєса, може досягти 40% рівня помилки.
  • нарешті, і це не було опубліковане жодним чином, де (наскільки я знаю) є такий вид накладання, при якому помилка узагальнення не збільшується в міру збільшення прискорених раундів, але і не зменшується. Це означає, що алгоритм застряг у локальній оптимі. У цій ситуації помилка навчання постійно зменшується, а помилка тесту залишається майже постійною. Поки ми ніколи не розглядали це явище як ознаку перевиконання, але я вважаю, що це ознака перевитрати, і, використовуючи складніші слабкі учні, (дивним чином!) Насправді ми можемо протидіяти цьому (Цей останній пункт слід розглядати обережно : D)

1
Варто додати до цієї відповіді, що я, можливо, сьогодні пережив останній вид пристосування, як з AdaBoost, так і з Random Forest. При перехресній валідації помилка, що перевершується в декілька разів, сходилася до постійної лише 20 базових оцінювачів, а потім підстрибувала навколо цієї константи з великою дисперсією. Моя підозра була точно така ж: жадібні алгоритми застрягли в якомусь локальному оптимумі. Це не підтвердження того, що сталося, але приємно знати, що хтось інший подумав таку ж думку.
shadowtalker

@ssdecontrol Чи можете ви поділитися тим, що ви зробили? Я хочу відтворити результати, щоб краще зрозуміти
saurabh agarwal

@saurabhagarwal Я думаю, що працював над проектом Kaggle Titanic
shadowtalker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.