Байезіан проти MLE, проблема, що відповідає


12

У PRML-книзі Бішопа він говорить, що надмірне оснащення - це проблема з максимальною оцінкою ймовірності (MLE), і Байєсій може цього уникнути.

Але я думаю, що перевиконання - це проблема більше не щодо вибору моделі, а не щодо методу оцінки параметрів. Тобто, припустимо, у мене є набір даних , який генерується через , тепер я можу вибрати різні моделі щоб відповідати даним та дізнатися який із них найкращий. А розглянуті моделі - це многочлени з різними порядками, - це порядок 1, - порядок 2, - це порядок 9.f ( x ) = s i n ( x ) ,DH i H 1 H 2 H 3

f(x)=sin(x),x[0,1]
HiH1H2H3

Зараз я намагаюся підходити до даних до кожної з 3-х моделей, кожна модель має свої параметри, позначені як для .w i H iDwiHi

Використовуючи ML, я буду бально оцінювати параметри моделі , а занадто простий і завжди буде недостатнім для даних, тоді як занадто складний і він буде перевантажувати дані, тільки буде добре відповідати даним.H 1 H 3 H 2wH1H3H2

Мої запитання:

1) Модель перевищить дані, але я не думаю, що це проблема ML, а проблема моделі сама по собі. Тому що, використовуючи ML для не призводить до перевитрати. Я правий?H 1 , H 2H3H1,H2

2) Порівняно з байєсівською, ML має деякі недоліки, оскільки вона лише дає точну оцінку параметрів моделі , і це переконання. Тоді як Баєсіан не покладається тільки на найбільш вірогідне значення параметра, але на всі можливі значення параметрів з урахуванням спостережуваних даних , правда?DwD

3) Чому Байєсий може уникнути або зменшити наряд? Як я це розумію, ми можемо використовувати Баєсіан для порівняння моделей, тобто за даними ми могли б дізнатися граничну ймовірність (або модельні докази) для кожної розглянутої моделі, а потім вибрати ту, яка має найбільшу граничну ймовірність, правильно ? Якщо так, то чому це?D

Відповіді:


19

Оптимізація - корінь всього зла в статистиці. Кожен раз, коли ви робите вибір щодо своєї моделі , оптимізуючи якийсь відповідний критерій, оцінений на кінцевій вибірці даних, ви ризикуєте перевиконати критерій, тобто зменшити статистику за межею, коли отримуються поліпшення продуктивності узагальнення та зменшення замість цього отримують, використовуючи особливості вибірки даних, наприклад, шум). Причина, що баєсівський метод працює краще, полягає в тому, що ви нічого не оптимізуєте, а натомість маргіналізуєтесь (інтегруєтесь) у всі можливі варіанти. Тоді проблема полягає у виборі попередніх переконань щодо моделі, тому одна проблема пішла, а інша з’явилася на її місці.1


1 Сюди входить максимізація доказів (гранична ймовірність) в умовах Байєса. Для прикладу цього дивіться результати класифікаторів Гауссового процесу в моїй роботі, де оптимізація граничної ймовірності погіршує модель, якщо у вас занадто багато гіперпараметрів (вибір примітки відповідно до граничної ймовірності, як правило, надаватиме перевагу моделям з великою кількістю гіпер -параметри внаслідок такої форми перевиконання).

GC Cawley та NLC Talbot, Надмірна відповідність вибору моделі та подальша упередженість вибору в оцінці продуктивності, Journal of Machine Learning Research, 2010. Research, vol. 11, стор. 2079-2107, липень 2010 р. ( Pdf )


+1, велике спасибі, я прочитаю твій документ і побачу, чи є у мене додаткові запитання, ;-)
авокадо

1
Тут просто зауважимо, що оптимізацію можна вважати приблизно інтегруючою - приклад цього є метод Лапласа. Оптимізація зазвичай не вдається, коли це не є гарним наближенням до інтеграції - отже, чому REML зазвичай краще, ніж ML.
ймовірність

@probabilityislogic, я не впевнений, що я розумію, ML трохи схожий на MAP, інтеграція не виконується. Використання апроксимації Лапласа (як я бачив, як це використовувалося) - це оптимізація в тому сенсі, що ви оптимізуєте наближення до функції, яку хочете замість цього інтегрувати та інтегрувати, але інтеграція все ще триває.
Дікран Марсупіал

1
@dikran marsupial - Можливо, кращим способом пояснити це є те, що інтеграція часто добре наближається, оцінюючи параметр за ML та обмежуючи цей параметр рівним його MLE. Наближення Лапласа забезпечує "корекційний коефіцієнт" для цієї інтуїції - так само, як це робить REML.
ймовірність

@probabilityislogic дякую за відповідь, я подумаю!
Дікран Марсупіал

7

Як загальна відповідь, якщо ви використовуєте регресійні моделі типу "найменші квадрати", між баєсами та ML не існує великої різниці, якщо ви не використовуєте інформаційний попередній параметр регресії. У відповідь на специфіку:

1) не обов'язково перевищує дані - лише якщо у вас близько 9 спостережень. Якщо у вас було 100 спостережень, більшість нібито "переобладнаних" коефіцієнтів буде близьким до нуля. Крім того, майже завжди призведе до "недостатку" - так як буде пропущено чітке викривленняH 1H9H1

2) Це не вірно для таких "лінійних", як поліномічні розширення ("лінійне", що означає лінійне відносно параметрів, а не ). Оцінки ML для найменших квадратів ідентичні заднім засобам під неінформативними пріорами або великими розмірами вибірки. Насправді ви можете показати, що оцінки МЛ можна розглядати як "асимптотичні" задні засоби в різних моделях.x

3) Байєсівський підхід дозволяє уникнути перевитрати лише для належних пріорів. Це діє аналогічно до покарань, які ви бачите в деяких примірних алгоритмах. Наприклад, покарання L2 = звичайне попереднє значення, покарання L1 = попереднє місце.


і ви маєте рацію, що, маючи під рукою більше спостережень, не буде надмірно корисним. Але я маю рацію з твердженням, що надмірне обладнання - це проблема вибору неправильної моделі, а не ML як такої ? І ми можемо використовувати Bayesian у виборі моделі, але ми не можемо це зробити з ML, чи не так? H9
авокадо

Звичайно, всі варіанти H тут будуть неправильною моделлю, окрім . Проблема полягає в помилці в оцінці параметрів моделі, яка має як зміщення, так і дисперсійні компоненти. Якщо ви вибираєте модель, використовуючи байєсівський критерій, ви все ще можете переоцінити це (я додаю посилання на підтримку, що у моїй відповіді). H
Дікран Марсупіал

@loganecolss - Я думаю, що тут буде ближче до істини, ніж будь-які інші. Перевиконання більш тісно пов'язане з розміром вибірки та типом структури моделі, для якої вона може забезпечити підтримку (іноді її називають моделлю "впевненої речі"). H9
ймовірність

4

В основному, те, що ви робите, збільшуючи градуси ваших поліномів, - це збільшення кількості параметрів або ступенів свободи вашого простору моделі, тобто. її вимір. Чим більше параметрів ви додаєте, тим більше модель може легко вмістити дані тренувань. Але це також сильно залежить від кількості спостережень. Ваші моделі та можуть так само перевершити дані тренувань, якщо кількість спостережень невелика, так само як може взагалі не перевищувати, якщо кількість навчальних екземплярів досить велика.H 2 H 3H1H2H3

Наприклад, давайте сильно перебільшити і припустимо, що вам дано лише приклади тренувань, ніж навіть завжди перевищує ваші дані.Н 12H1

Перевага накладення пріорів, наприклад, через регуляризацію, полягає в тому, що параметри або зменшуються до нуля, або якесь інше заздалегідь задане значення (ви навіть можете додавати параметри, щоб "зв’язати" коефіцієнти разом, якщо вам подобається), і таким чином ви неявно обмежуєте параметри і зменшення «свободи» вашої моделі для надмірного набору. Наприклад, використання lasso (тобто регуляризація або еквівалентно попереднього Laplace) та настроювання відповідного параметра (наприклад, використовуючи 10-кратну перехресну перевірку) автоматично позбудеться надлишкових параметрів. Інтерпретація Баєса схожа: накладаючи пріори, ви обмежуєте свої параметри деяким більш ймовірним значенням, що випливає із загальних даних.l1


Проста гіпотеза (наприклад, h1, h2) з недостатньою кількістю зразків для тренінгу може бути прикладом недостатньої підгонки (для cv), а не надмірної підгонки через модельні ухили на кількох наведених прикладах тренувань.
yekta
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.