Чому ансамблі такі нерозумно ефективні

14

Схоже, це стало аксіоматичним, що ансамбль учнів призводить до найкращих можливих модельних результатів - і це стає все рідше, наприклад, для одиночних моделей вигравати змагання, такі як Kaggle. Чи є теоретичне пояснення того, чому ансамблі настільки дивно ефективні?

machine-learning data-mining predictive-modeling

— Роберт де Грааф
джерело

1

Моя здогадка була б теоремою центральної межі, але я не маю виправдання.

13

Для конкретної моделі, з якої ви подаєте дані, вибирайте функції, вибирайте гіперпараметри тощо. У порівнянні з реальністю вона робить три типи помилок:

Зміщення (через занадто низьку складність моделі, зміщення вибірки у ваших даних)
Варіантність (через шум у ваших даних, перевиконання ваших даних)
Випадковість реальності, яку ви намагаєтеся передбачити (або відсутність прогнозних функцій у вашому наборі даних)

Ансамблі в середньому виходять з ряду цих моделей. Упередження через зміщення вибірки не буде виправлено з очевидних причин, це може виправити деякі зміщення складності моделі, однак помилки дисперсії, які робляться, сильно відрізняються від ваших різних моделей. Особливо низькі корельовані моделі роблять дуже різні помилки в цій області, деякі моделі добре працюють у певних частинах вашого простору. Усереднюючи ці моделі, ви значно зменшите цю дисперсію. Ось чому ансамблі блищать.

— Ян ван дер Вегт
джерело

6

Вибрана відповідь є фантастичною, але я хотів би додати дві речі:

Було помічено, що усереднення прогнозів людини дає кращі прогнози, ніж будь-які окремі прогнози. Це відомо як мудрість натовпу . Тепер ви можете стверджувати, що це тому, що деякі люди мають різну інформацію, тому ви ефективно усереднюєте інформацію. Але ні, це справедливо навіть для таких завдань, як відгадування кількості квасолі в банці. Я припускаю, що це стосується деяких причин, наведених вище щодо моделей видобутку даних.
Деякі методи, такі як метод відміни в нейронних мережах (де в кожній ітерації під час тренінгу ви використовуєте лише шматок вашої нейронної мережі), дають результати, подібні до ансамблю нейронних мереж. Обґрунтування полягає в тому, що ви ефективно змушуєте вузли виконувати ту саму роботу передбачувача, що й інші вузли, ефективно створюючи мета-ансамбль. Я говорю це, щоб зробити висновок про те, що нам можливо вдасться представити деякі переваги ансамблів у традиційних моделях.

— Рікардо Крус
джерело

6

Ансамблі перемагають у передбаченні з теоретичних та практичних причин.

Існує фундаментальна теорія оптимального прогнозування, якщо ми маємо на увазі передбачення наступної події в послідовності, заснованої на знаннях попередніх подій. Прогноз Соломонофа (Solomonoff 1964) є очевидно оптимальним у кількох сенсах, включаючи те, що він «навчиться правильно прогнозувати будь-яку обчислювальну послідовність лише з абсолютним мінімальним обсягом даних». (Hutter, Legg & Vitanyi 2007) Прогноз Solomonoff зважує всі програми, сумісні з існуючими даними, відповідно до складності програми Колмогорова та ймовірності, що програма призначає дані до цих пір, поєднуючи Epicurean ("зберігати всі теорії") та Окхем («віддайте перевагу простим теоріям») філософії в байєсівських рамках.

Властивості оптимальності прогнозування Соломонофа пояснюють надійний висновок, про який ви посилаєтесь: усереднення моделей, джерел або експертів покращує прогнози, а усереднені прогнози перевершують навіть найкращий одиночний прогноз. Різні ансамблеві методи, які можна побачити на практиці, можна розглядати як обчислювальні наближення до прогнозу Соломонофа - і деякі, такі як MML (Wallace 2005), явно досліджують зв'язки, хоча більшість цього не робить.

Уоллес (2005) зазначає, що передбачувач Соломонофа не є парсимонічним - він зберігає нескінченний пул моделей, - але більша частина прогнозної сили неминуче падає на порівняно невеликий набір моделей. У деяких областях одна найкраща модель (або сімейство майже нерозрізних моделей) може становити значну частину прогнозованої сили та перевершувати загальні ансамблі, але в складних областях з малою теорією, швидше за все, жодне сімейство не фіксує більшість задніх імовірностей, і тому усереднення щодо правдоподібних кандидатів повинно покращити прогнози. Щоб виграти приз Netflix, команда Bellkor поєднала понад 450 моделей (Koren 2009).

Люди зазвичай шукають єдиного хорошого пояснення: у галузях "високої теорії", як фізика, вони працюють добре. Дійсно, якщо вони фіксують основну причинну динаміку, вони повинні бути майже неперевершеними. Але там, де наявні теорії не відповідають тім явищам (скажімо, рекомендації щодо фільмів чи геополітики), одиничні моделі будуть неефективними: усі є неповними, тому жодна не повинна домінувати. Таким чином, останні акценти на ансамблях (для машинного навчання) та Wisdom of Crowds (для експертів), а також на успіх таких програм, як IARPA ACE, а саме проекту Good Judging Project (Tetlock & Gardiner 2015).

Список літератури

М. Хаттер, С. Легг та П. Вітаній, “Алгоритмічна ймовірність”, Наукова наука, вип. 2, 2007, с. 2572 рік.
Ю. Корен, "Рішення BellKor до Гран-прету Netflix", 2009.
Соломонов, Рей (березень 1964). "Формальна теорія індуктивного висновку, частина I" (PDF). Інформація та контроль 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
Соломонов, Рей (червень 1964). "Формальна теорія індуктивних висновків, частина II" (PDF). Інформація та контроль 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
PE Tetlock, експертний політичний суд: наскільки це добре? Як ми можемо знати ?, Princeton University Press, 2005.
Tetlock, PE, & Gardner, D. (2015). Суперпрогноз: Мистецтво та наука передбачення. Нью-Йорк: Корона.
CS Wallace, Статистичні та індуктивні умовиводи по мінімальній довжині повідомлення, Springer-Verlag, 2005.

— хитрощі
джерело