Як ви можете виявити, чи є процес Гаусса надмірним?


12

Я готую процес Гаусса з ядром ARD з великою кількістю параметрів, максимізуючи граничну достовірність даних замість перехресної перевірки.

Я підозрюю, що це надмірно підходить. Як я можу перевірити цю підозру в байєсівському контексті?

Відповіді:


12

Найпростіше зробити це - пристосувати процес Гаусса до функції коваріації, не еквівалентної ARD (зазвичай RBF), і порівняти показники тестових помилок. Для багатьох проблем функція коваріації АРД виконує гірше, ніж функція коваріації, що не є АРД, через надмірну підгонку при налаштуванні гіпер параметрів. Оскільки коваріація RBF - це особливий випадок коваріації ARD, якщо RBF працює краще, це є чітким показником того, що ядро ​​ARD є надмірно придатним (почніть оптимізувати коефіцієнти ARD при оптимальних значеннях для відповідної коваріації RBF, це швидше, а також допомагає гарантувати, що проблема з коваріацією ARD не лише через локальні мінімуми з граничною ймовірністю). Це набагато більша проблема, ніж зазвичай цінується.

Я написав про це кілька робіт:

GC Cawley та NLC Talbot, Запобігання надмірної підгонки під час вибору моделі за допомогою Байєсової регуляризації гіперпараметрів, Journal of Machine Learning Research, том 8, сторінки 841-861, квітень 2007 ( pdf )

і

GC Cawley та NLC Talbot, Надмірна відповідність вибору моделі та подальша упередженість вибору в оцінці продуктивності, Journal of Machine Learning Research, 2010. Research, vol. 11, стор. 2079-2107, липень 2010 р. ( Pdf )

Перший включає деякі експерименти з ГП, які показують, що надмірне пристосування при виборі моделі також є проблемою для лікарів загальної практики, які мають граничну ймовірність вибору моделі на основі максимізації.

Більш ретельний аналіз полягав би в оцінці помилки тесту лікаря загальної практики на кожному кроці в процесі оптимізації граничної ймовірності. Велика ймовірність, що ви отримаєте класичну оцінку залу надмірного розміщення, де критерій вибору моделі монотонно зменшується, але помилка тесту спочатку зменшується, але потім знову починає зростати, оскільки критерій вибору моделі надмірно оптимізований (див. Див. Малюнок 2а у статті JMLR 2010 року.


Гарне спасибі - я зараз читаю перше. Чи натрапили ви на більш ефективний спосіб знову регулювати перевиконання ядер з багатьма параметрами, наприклад, ARD, якщо термін складності моделі з граничною ймовірністю недостатній для запобігання перевитрати?
nickponline

2
Я підозрюю, що найбільш надійним, що можна зробити, буде маргіналізація над гіперпараметрами методами Марковського ланцюга Монте-Карло. Що стосується розміру набору даних, до якого зазвичай звертаються лікарі загальної практики (до декількох тисяч шаблонів), я підозрюю, що перевищення граничної ймовірності є майже неминучим. Оптимізація IMHO - це корінь усього зла в статистиці, коли ви оптимізуєте що-небудь, ви ризикуєте перенастроїтись. Байєсівський підхід у цьому сенсі набагато кращий, але ти натомість ризикуєш складнощами, тому що апріори помиляються :-(
Дікран Марсупіал

@DikranMarsupial Чи є останні дослідження про те, як уникнути перевитрати за допомогою варіативних методів GP?
imsrgadich
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.