Перехресна валідація проти емпіричного Байєса для оцінки гіперпараметрів


20

З огляду на ієрархічну модель , я хочу, щоб двоступеневий процес підходив до моделі. Спочатку зафіксуйте жменю гіперпараметрів , а потім зробіть байєсівський висновок щодо решти параметрів . Для фіксації гіперпараметрів я розглядаю два варіанти.p(х|ϕ,θ)θϕ

  1. Використовуйте емпіричний Байєс (EB) та максимізуйте граничну ймовірність (інтегруючи решту моделі, що містить високі параметри розміру).p(всі дані|θ)
  2. Використовуйте методи перехресної перевірки (CV) , такі як кратна перехресна перевірка, щоб вибрати що максимально збільшує ймовірність .θ p ( дані випробувань | дані про навчання , θ )кθp(дані тесту|дані про навчання,θ)

Перевага EB полягає в тому, що я можу використовувати всі дані одночасно, тоді як для CV мені потрібно (потенційно) обчислити ймовірність моделі кілька разів і шукати . Показники КВ та КВ у багатьох випадках порівнянні (*), і часто ЕВ швидше оцінити.θ

Запитання: Чи існує теоретичний фундамент, який пов'язує два (скажімо, EB та CV однакові в межах великих даних)? Або пов'язує ЕБ з деяким критерієм узагальнення, наприклад, емпіричним ризиком? Чи може хтось вказати на хороший довідковий матеріал?


(*) Як ілюстрацію, ось цифра з машинного навчання Мерфі , розділ 7.6.4, де він говорить, що для регресії хребта обидві процедури дають дуже схожий результат:

murphy - емпіричний байес проти CV

Мерфі також говорить, що принципова практична перевага емпіричного Байєса (він називає це "процедурою доказування") перед CV - це тоді, коли складається з безлічі гіпер-параметрів (наприклад, окремого штрафу за кожну особливість, наприклад, при автоматичному визначенні відповідності або ARD). Там взагалі не можна використовувати резюме.θ


Чи можете ви описати більш детально, що ви робите для методу перехресної перевірки? Ви виправляєте а потім використовуєте дані тренувань, щоб оцінити інші параметри перед підтвердженням? θ
Ніл Г

@NeilG максимізація суми вірогідності граничних прогнозних даних для наборів перехресних перевірок (k інтегровано).
Пам'яті

1
Якщо інтегрується обидва рази, то яка різниця між CV та EB? к
Ніл Г

2
Чудове запитання. Я взяв на себе сміливо додати фігуру з підручника Мерфі до вашого запитання, щоб проілюструвати вашу думку про дві процедури, які часто можна порівняти. Сподіваюся, ви не заперечуєте проти цього доповнення.
Амеба каже, що поверніть Моніку

Відповіді:


16

Я сумніваюся, що існує теоретичне посилання, яке говорить про те, що максимізація резюме та доказів асимптотично рівнозначна, оскільки докази свідчать про ймовірність даних, що даються припущеннями моделі . Таким чином, якщо модель неправильно вказана, то докази можуть бути недостовірними. Перехресне підтвердження, з іншого боку, дає оцінку ймовірності даних, чи є припущення моделювання правильними чи ні. Це означає, що докази можуть бути кращим керівництвом, якщо припущення моделювання правильні, використовуючи менше даних, але перехресне підтвердження буде надійним щодо неправильної специфікації моделі. Резюме є асимптотично неупередженим, але я б припустив, що доказів немає, якщо тільки припущення щодо моделі не виявляться абсолютно правильними.

Це по суті моя інтуїція / досвід; Мені також було б цікаво дізнатися про дослідження з цього приводу.

Зауважте, що для багатьох моделей (наприклад, регресія хребта, гауссові процеси, регресія хребта ядра / LS-SVM тощо) перехресне підтвердження відмовлення може бути виконано як мінімум так само ефективно, як оцінка доказів, тому не обов'язково обчислювальної перевага там.

Додаток: І гранична ймовірність, і оцінка перехресної перевірки оцінюються за допомогою кінцевого зразка даних, і, отже, завжди є можливість перевиконання, якщо модель налаштована шляхом оптимізації будь-якого критерію. Для невеликих зразків різниця у дисперсії двох критеріїв може визначити, який найкраще працює. Дивіться мій папір

Гевін К. Каулі, Ніколас Л. Талбот, "Про надмірне входження в вибір моделі та наступні ухили відбору в оцінці продуктивності", Journal of Machine Learning Research, 11 (July): 2079-2107, 2010. ( pdf )


Чому ви вважаєте, що CV є надійним щодо неправильно вказаної моделі? У його випадку такого захисту немає, оскільки перехресна перевірка шукає той самий простір, що й ЕВ обчислює ймовірність. Якщо його припущення щодо моделювання помилкові, то перехресне підтвердження його не врятує.
Ніл Г

1
ϕϕθ

ps Я проводив аналіз того, щоб уникнути перевиконання в нейронних мережах з байєсівською регуляризацією, де параметри регуляризації налаштовуються за допомогою граничної максимальної ймовірності. Бувають ситуації, коли це працює дуже погано (гірше, ніж взагалі немає регуляризації). Це, мабуть, є проблемою неправильної специфікації моделі.
Дікран Марсупіал

Він може отримати той самий "показник продуктивності узагальнення", перевіривши загальну ймовірність журналу даних за даними прогнозованого розподілу, поверненого ЕБ (що буде дорівнює ентропії цього розподілу). У цьому випадку немає можливості її перемогти, оскільки це аналітичне рішення цієї проблеми. Я не бачу, чому крос-валідація має сенс, коли можна обчислити ймовірність отримання ЕВ.
Ніл Г

2
@probabilityislogic, я не зовсім впевнений, до чого ти стикаєшся (проблема безсумнівно в моєму кінці !; o). Я можу вам сказати з практичного досвіду, хоча це питання дуже реальне. Я працюю над проблемами у виборі моделі вже декілька років, і я стикався з багатьма проблемами, де максимізація граничної ймовірності виявляється дуже поганою ідеєю. Перехресне підтвердження працює так само, як і для більшості наборів даних, але там, де він працює погано, він рідко спрацьовує катастрофічно, як іноді це максимізація доказів.
Дікран Марсупіал

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.