Про «силу» слабких учнів

22

У мене є декілька тісно пов’язаних питань щодо слабких учнів, що навчаються в ансамблі (наприклад, стимулювання).

Це може здатися німим, але які переваги використання слабких на відміну від сильних учнів? (наприклад, чому б не підсилити "сильні" методи навчання?)
Чи є якась "оптимальна" сила для слабких учнів (наприклад, зберігаючи всі інші параметри ансамблю фіксованими)? Чи є "солодка пляма", коли мова йде про їх силу?
Як ми можемо виміряти силу слабкого учня стосовно сили методу ансамблю. Як ми кількісно вимірюємо граничні переваги використання ансамблю?
Як ми можемо порівняти кілька слабких алгоритмів навчання, щоб вирішити, який з них використовувати для заданого ансамблевого методу?
Якщо даний метод ансамблю допомагає слабким класифікаторам більш ніж сильним, то як ми можемо сказати, що даний класифікатор вже "занадто сильний", щоб отримати будь-які значні вигоди при його використанні?

machine-learning boosting ensemble

16

Це може бути більше в дусі, але все-таки:

Якщо у вас справді є сильний учень, не потрібно вдосконалювати його будь-якими речами ансамблю.
Я б сказав ... не має значення. При тривиальному змішуванні та мішкуванні, прискорення створення занадто сильного класифікатора може призвести до певних порушень конвергенції (тобто вдале прогнозування може зробити наступну ітерацію для прогнозування чистого шуму і, таким чином, зниження продуктивності), але це, як правило, відновлюється в процесі ітерацій.
Знову ж таки, це не реальна проблема. Суть цих методів полягає в тому, щоб
1. змусити часткові класифікатори заглянути глибше в проблему.
2. приєднатися до своїх прогнозів, щоб послабити шум і посилити сигнал.
1) потребує певної уваги в стимулюванні (тобто, хороша схема прискорення, добре поводиться з частковим навчанням - але це, здебільшого, судити за експериментами на цілому прискоренні); 2) в упаковці та змішуванні (здебільшого, як забезпечити відсутність кореляції між учнями і не перенасичуйте ансамбль). Поки це нормально, точність часткового класифікатора є проблемою третього порядку.

Дякую @mbq. Чи означає вище, що слабкі класифікатори зазвичай отримують більше переваг від ансамблевих методів, ніж сильні? (тобто підсилення допомагає слабким класифікаторам більше, ніж сильним). У цьому сенсі, як ми знаємо, що даний класифікатор вже досить сильний для певного ансамблевого методу? (Наприклад , як ви можете приблизно сказати , у вас є сильний учня , який не принесе користь багато від підвищення?)

— Амеліо Васкес-Рейн

1

Швидше лише слабкі класифікатори дають простір для вдосконалення. Загалом міцність - це абстрактна якість, і ми її не можемо реально виміряти. Єдиний певний тест - це лише зробити експеримент і перевірити, чи значно збільшить його ефективність. Якщо так, класифікатор був слабким. Якщо ні, ну, ми все ще нічого не знаємо.

11

По-перше, поняття "слабкий" та "сильний" лише слабо визначені. З моєї точки зору, вони повинні бути визначені щодо оптимального класифікатора Байєса, який є ціллю будь-якого алгоритму навчання. Зважаючи на це, моя відповідь на три пункти виглядає наступним чином.

Як я бачу, обчислювальні. Більшість слабких учнів, яких я знаю, обчислювально швидкі (інакше їх не варто враховувати). Основним моментом в ансамблевому навчанні є саме те, що ми можемо поєднати прості та швидкі, але не такі хороші, які навчаються та покращувати рівень помилок. Якщо ми використовуємо сильніших (і обчислювально більш вимогливих) тих, хто навчається, приміщення для вдосконалень стає менше, але обчислювальна вартість стає більшою, що робить використання методів ансамблю менш цікавим. Більше того, одного сильного учня може бути простіше інтерпретувати. Однак те, що є слабким, а що сильним, залежить від проблеми та оптимальної швидкості Байєса, яку ми намагаємося досягти. Отже, якщо учень, який часто вважається сильним, все ж залишає місце для вдосконалень при його підвищенні та прискоренні в обчислювальних обставинах, тоді зробіть підвищення ...
Це залежатиме від критеріїв, які ви використовуєте для вимірювання "оптимальних". Щодо рівня помилок, я б сказав «ні» (я вітаю будь-які виправлення, якщо інші мають інший досвід). Щодо швидкості, можливо, але я думаю, що це дуже залежить від проблеми. Я не знаю жодної літератури, яка б вирішила це, вибачте.
?
Перехресне підтвердження, перехресне підтвердження, перехресне підтвердження. Як і будь-яке інше порівняння методів навчання з метою прогнозування, нам потрібні неупереджені оцінки похибки узагальнення для порівняння, що може бути досягнуто, відклавши набір даних тесту або наблизивши його шляхом перехресної перевірки.

— NRH
джерело

Дякую @NRH, це дуже корисно. Я розділив третє запитання на два окремих питання, оскільки думаю, що вони, ймовірно, потребують різних відповідей.

— Амеліо Васкес-Рейна

Тож чи є спосіб дізнатися, наскільки близький класифікатор до оптимального класифікатора Байєса? Якщо вона вже досить близька, ми не можемо її покращити.

— highBandWidth

@highBandWidth, неможливо знати, що таке швидкість Байєса Це теоретична величина, яка спирається на невідомий розподіл. Теоретичні припущення можуть забезпечити нижню і верхню (асимптотичну) межу, і за допомогою перехресної перевірки або незалежних даних тесту можна точно оцінити верхні межі. Але якщо ви не знаєте розподілу, неможливо сказати, чи такі верхні межі тісні чи не залишать місця для вдосконалення.

— NRH