Які теоретичні гарантії пакування


17

Я (приблизно) чув, що:

пакетування - це методика зменшення дисперсії алгоритму прогнозування / оцінки / навчання.

Однак я ніколи не бачив формального математичного підтвердження цього твердження. Хтось знає, чому це математично вірно? Це, мабуть, є таким широко прийнятим / відомим фактом, що я очікую прямого посилання на це. Я був би здивований, якщо немає. Також хтось знає, який вплив це має на зміщення?

Чи існують якісь інші теоретичні гарантії підходів до розробки, які хтось знає і вважає важливими і хочуть ними поділитися?

Відповіді:


21

Основним випадком використання для упаковки є зменшення дисперсії моделей з низьким ухилом, з'єднання їх між собою. Це було досліджено емпірично у важливій статті " Емпіричне порівняння алгоритмів класифікації голосування: баггінг, підсилення та варіанти " Бауера та Кохаві . Зазвичай працює як рекламується.

Однак, всупереч поширеній думці, пакетування не гарантується для зменшення дисперсії . Більш свіжим і (на мій погляд) кращим поясненням є те, що мішок зменшує вплив важелів. Точки важеля - це ті, які непропорційно впливають на отриману модель, наприклад, переживаючи регресію найменших квадратів. Вкрай рідко, але можливо, щоб позиційні точки позитивно впливали на отримані моделі, і в такому випадку розфасовка знижує продуктивність. Погляньте на " Баггінг вирівнює вплив " Грандвалета .

Отже, щоб нарешті відповісти на ваше запитання: ефект мішків багато в чому залежить від балів. Існує небагато теоретичних гарантій, за винятком того, що розфасовка лінійно збільшує час обчислення з точки зору розміру мішка! Однак, це все ще широко використовується і дуже потужна техніка. Наприклад, навчаючись із шумом міток, наприклад, мішок може створити більш надійні класифікатори .

Рао і Тібширані дали байєсівську інтерпретацію " Методу поза завантаження для моделювання усереднення та вибору " :

У цьому сенсі розподіл завантажувальної програми представляє (приблизний) непараметричний, неінформативний задній розподіл для нашого параметра. Але такий розподіл завантажувального пристрою отримується безболісно - без необхідності формально вказати попередній та без необхідності вибірки з заднього розподілу. Отже, ми можемо подумати про розподіл завантажувального апарату як про бідного чоловіка "Bayes posterior.


1
Яким чином пояснення "пунктів важеля" застосовується до дерев, які часто рекомендують для пакування? Хоча зрозуміло, які точки високого важеля для лінійної регресії, що це за дерева?
DavidR

знайшов ще одне посилання на це питання: quora.com/… що ти думаєш? це суперечить факту u, який сказав, що теоретично не зменшує дисперсію?
Чарлі Паркер

Я бачив, що у Вікіпедії йдеться про те, що мішки (також агрегація завантажувальної програми) зменшує дисперсію. Якщо для цього немає теоретичних доказів, чи означає це, що стаття є неправильною?
Чарлі Паркер

У більшості випадків пакетування має меншу дисперсію, але це не його фактичний механізм. Grandvalet показав приклади, де вона збільшує дисперсію, і проілюстрував, що механізм тісніше пов'язаний з вирівнюючим впливом точок даних, що сильно впливають на модель, наприклад, вилучення при регресії мінімум квадратів, що в більшості випадків зменшує дисперсію.
Marc Claesen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.