Чому я повинен бути байесівцем, коли моя модель помиляється?


68

Правки: Я додав простий приклад: висновок про середнє значення . Я також трохи уточнив, чому вірні інтервали, що не відповідають довірчим інтервалам, є поганими.Xi

Я, досить побожний байесів, перебуваю в середині кризи віри.

Моя проблема полягає в наступному. Припустимо, що я хочу проаналізувати деякі дані IID . Що я б робив:Xi

  • спочатку запропонуйте умовну модель:

    p(X|θ)
  • Потім виберіть пріоритет на : θ

    p(θ)
  • Нарешті, застосуйте правило Байєса, обчисліть заднє: (або деяке наближення до нього, якщо воно повинно бути непорушним) і відповіді на всі питання, які у мене є щодоp(θ|X1Xn)θ

Це розумний підхід: якщо справжня модель даних дійсно знаходиться "всередині" мого умовного (це відповідає деякому значенню ), то я можу закликати теорію статистичних рішень, щоб сказати, що мій метод допустимий (див. "Байєсівський вибір" для деталей; "Вся статистика" також дає чіткий виклад у відповідній главі).Xiθ0

Однак, як всім відомо, припускаючи, що моя модель правильна, є досить зарозумілою: чому природа повинна акуратно потрапляти всередину коробки моделей, які я розглядав? Набагато реальніше припустити, що реальна модель даних відрізняється від для всіх значень . Зазвичай це називається "неправильно визначеною" моделлю.p ( X | θ ) θptrue(X)p(X|θ)θ

Моя проблема полягає в тому, що в цьому більш реалістичному неправильному випадку я не маю жодних вагомих аргументів для того, щоб бути байєсівським (тобто: обчислення заднього розподілу), а не просто обчислювачем максимальної ймовірності (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

Дійсно, за словами Kleijn, vd Vaart (2012) , у неправильному випадку задній розподіл:

  • конвергується як до розподілу дираків, зосередженим уthetas ; M Lnθ^ML

  • не має правильної дисперсії (якщо тільки два значення не збігаються) для того, щоб переконатися, що достовірні інтервали довірчих інтервалів довіри збігаються для . (Зауважте, хоча інтервали довіри, очевидно, є тим, про що байєси не переймаються надмірно, це якісно означає, що задній розподіл по суті невірний, оскільки це означає, що його достовірні інтервали не мають правильного покриття)θ

Таким чином, ми сплачуємо комп’ютерну премію (байєсівський висновок, загалом, дорожчий, ніж MLE), без додаткових властивостей

Отже, нарешті, моє запитання: чи є аргументи, теоретичні чи емпіричні, для використання байєсівського висновку щодо простішої альтернативи MLE, коли модель неправильно визначена?

(Оскільки я знаю, що мої запитання часто незрозумілі, повідомте мене, якщо ви щось не розумієте: я спробую перефразувати це)

Редагувати: розглянемо простий приклад: підводимо середнє значення за моделлю Гаусса (з відомою дисперсією для спрощення ще більше). Ми вважаємо Гауссовим пріоритетом: позначимо попереднім середнім, - зворотною дисперсією попереднього. Нехай - емпіричне середнє значення . Нарешті, зверніть увагу: . σ μ 0 β 0 ˉ X X i μ = ( β 0 μ 0 + nXiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

Задній розподіл:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

У правильно вказаному випадку (коли дійсно мають гауссовий розподіл), цей задник має такі приємні властивостіXi

  • Якщо породжуються з ієрархічної моделі, в якій їх загальне середнє значення вибирається з попереднього розподілу, то задні достовірні інтервали мають точне покриття. За умовами даних, ймовірність того, що знаходиться в будь-якому інтервалі, дорівнює ймовірності того, що задній приписується цьому інтервалу θXiθ

  • Навіть якщо попередні невірні, достовірні інтервали мають правильне покриття в межі в якій попередній вплив на задню зникаєn

  • заднє додатково має хороші частолістські властивості: будь-який байєсівський оцінювач, побудований із задньої частини, гарантовано є прийнятним, заднє середнє значення - ефективний оцінювач (у розумінні Крамера-Рао) середнього, достовірні інтервали - це асимптотично довірчі інтервали.

У неправильному випадку більшість цих властивостей теорією не гарантується. Для того, щоб виправити ідеї, припустимо, що реальна модель для полягає в тому, що вони замість дистрибутивів Student. Єдиною властивістю, яку ми можемо гарантувати (Kleijn та ін.), Є те, що задній розподіл концентрується на реальній середній в межі . Загалом, всі властивості покриття зникли б. Гірше, загалом, ми можемо гарантувати, що в цій межі властивості покриття принципово неправильні: задній розподіл приписує неправильну ймовірність різним регіонам простору.X i n XiXin


2
Що ж, байесівські підходи регулярізують. Це щось, що допоможе вам проти перенапруги - неправильно вказано вашу модель чи ні. Звичайно, це якраз і призводить до спорідненого питання щодо аргументів для байєсівського висновку проти регульованих класичних підходів (ласо, регресія хребта, еластична сітка тощо).
Стефан Коласа

3
Вас може зацікавити цей твір та його родичі.
Дугал

7
Якщо ваша модель неправильно визначена з точки зору використання неправильної функції ймовірності, то і оцінки MLE, і байесовські були б помилковими ...
Tim

5
@Tim: висновок MLE і байесовского не мають сенсу в помилковому випадку: вони обидва намагаються відновити значення параметра що дає найкращий облік даних в умовних моделях. Точніше, - аргумент де KL - розбіжність Кулбека Лейблера. За м'якими припущеннями, і MLE, і байєсівські умовиводи правильно ідентифікують це якщо їм надається достатня кількість даних ˜ θ 0KL[p(X),p(X|θ)] ˜ θ 0θ~0θ~0KL[p(X),p(X|θ)]θ~0
Гійом Дехаєн,

3
@amoeba Я уявляю жорсткий байєсівський вигляд і дію як командант Че
Аксакал

Відповіді:


31

Я вважаю баєсівський підхід, коли мій набір даних - це не все, що відомо про цю тему, і хочу якось включити ці екзогенні знання в мій прогноз.

Наприклад, мій клієнт хоче прогнозувати заборгованість за кредитом у своєму портфелі. Вони мають 100 позик з декількома роками квартальних історичних даних. Було декілька випадків правопорушення (прострочення платежу) і лише пара невиконань. Якщо я спробую оцінити модель виживання на цьому наборі даних, це буде дуже мало даних для оцінки та занадто багато невизначеності для прогнозу.

З іншого боку, менеджери портфеля - це досвідчені люди, деякі з них, можливо, витратили десятки років на управління стосунками з позичальниками. У них є ідеї щодо того, якими повинні бути ставки за замовчуванням. Отже, вони здатні придумати розумних пріорів. Зауважте, не ті пріорі, які мають приємні математичні властивості і виглядають для мене інтелектуально привабливими . Я поговорю з ними і витягну їхній досвід та знання у формі цих пріорів.

Тепер байєсівські рамки нададуть мені механіку для того, щоб одружуватись із екзогенними знаннями у формі апріорів із даними та отримати задній, який перевершує як чисте якісне судження, так і чистий прогноз, керований даними, на мою думку. Це не філософія, і я не баєс. Я просто використовую байєсівські інструменти, щоб послідовно включати експертні знання в оцінку, керовану даними.


3
Дуже приємний момент. Байєсівський висновок пропонує основу для вирішення саме такої задачі, як та, яку ви представили. Дякую.
Гійом Дехаєн

5
Це загальний аргумент для байєсівського моделювання, але як воно стосується конкретного випадку неправильно визначеної моделі? Я не бачу зв’язку.
Річард Харді

4
Ну, це стосується мого питання: навіть у неправильному випадку байєсівський висновок обробляє краще (тобто більш принципово) якісну інформацію за допомогою попередніх методів, ніж MLE, які повинні працювати з регуляторами. Це форма емпіричного аргументу щодо того, чому байєсівський висновок трохи кращий, ніж MLE.
Гійом Дехен

2
@Aksakal, чи помилково не визначено моделі, це крім суті. Мене хвилює те, що ви не відповідаєте на запитання. (Якщо ОП не погоджується, то, я думаю, він зробив погану роботу у формулюванні питання.) Але я бачу, що там нещодавно було внесено зміни, тож, можливо, питання вже було змінено.
Річард Харді

4
@ RichardHardy, я думаю, що моя відповідь входить в серце кризи віри ОП, яка рухається думкою, що якщо ваша умовна модель буде неправильно визначена, то вона переможе попередній із збільшенням розміру вибірки, а ваш задній буде висунутий на неправильну модель . У цьому випадку, чому турбуватися про Байесіана для початку, чому б не просто направити MLE, він запитує. Мій приклад, безумовно, не філософський, а практичний: ви часто маєте справу не просто з кінцевими, а з невеликими зразками. Таким чином, ваші дані не затягуватимуть задні частини занадто далеко від попередніх, що являє собою екзогенне знання.
Аксакал

25

Дуже цікаве запитання ... на яке, можливо, немає відповіді (але це не робить його менш цікавим!)

Кілька думок (і багато посилань на мої записи в блозі!) Про цей мем про те, що всі моделі помиляються :

  1. Хоча гіпотетична модель справді майже незмінно і безпомилково помиляється , все ж є сенс діяти ефективно та цілісно стосовно цієї моделі, якщо це найкраще, що можна зробити. Отриманий висновок виробляє оцінку формальної моделі, яка є "найближчою" до фактичної моделі генерації даних (якщо така є);
  2. Існують байєсівські підходи, які не можуть обійтися без моделі , останній приклад - роботи Біссірі та ін. моїми коментарями ) та Ватсона та Холмса (про які я обговорював з Джудіт Руссо );
  3. Зв'язаним чином існує ціла галузь байєсівської статистики, яка займається висновком M-відкритого типу ;
  4. І ще один напрямок, який мені дуже подобається, - це підхід Пітера Грюнвальда SafeBayes , який враховує неправильну специфікацію моделі, щоб замінити ймовірність заниженою версією, вираженою як потужність початкової ймовірності.
  5. Нещодавно прочитаний документ Гельмана та Генніга вирішує цю проблему, хоча й цивілізовано (і я додав кілька коментарів до свого блогу ). Я припускаю, що ви можете зібрати матеріал для обговорення із записів про своє питання.
  6. У певному сенсі байєсів слід менше за все турбувати статистиків та модельєрів щодо цього аспекту, оскільки модель вибірки повинна сприйматися як одне з декількох попередніх припущень, а результат є умовним або відносно всіх цих попередніх припущень.

2
Дуже приємно мати свою думку з цього приводу. Ваш перший пункт має інтуїтивний сенс: якщо модель не надто помилкова, то результат нашого висновку повинен бути нормальним. Однак чи доводив хтось подібний результат (чи досліджував це питання емпірично)? Ваш останній пункт (який я міг неправильно зрозуміти) залишає мене здивованим: модель вибірки є критичним вибором. Те, що ми також робимо вибір, не означає, що помилки у виборі моделі вибірки не можуть пошкодити всю модель. Дякую за посилання та чудовий блог.
Гійом Дехен

Для пункту 1. чому б не байосівська модель усереднення? Навіщо просто використовувати «найкращу» модель?
innisfree

@innisfree: все залежить від того, що ви плануєте зробити з результатом, я не маю релігії щодо усереднення моделі проти найкращої моделі.
Сіань

1
Ви, здається, припускаєте, що існує теоретичний аспект невизначеності моделі усереднення порівняно з вибором лише "найкращої" моделі. Безумовно, це завжди сприятливо, тобто допомагає приймати більш якісні рішення, щоб послідовно включати всі невизначеності, включаючи модель невизначеності.
інісфрі

2
Моє основне заперечення проти непараметрики є практичним: вони обчислювально дорожчі на кілька порядків порівняно з більш простими альтернативами. Крім того, чи ми також не стикаємося з непараметричними параметрами, оскільки майже два попередні дистрибутиви майже не можуть мати спільну підтримку? Це означає, що попередній матиме сильний вплив, і байесівські статистики не можуть погодитися, починаючи з різних пріорів.
Гійом Дехаєн

12

Правки: Додано посилання на цей документ в тілі, як цього вимагає ОП.


Я даю тут відповідь як наївний емпіричний баєс.

По-перше, задній розподіл дозволяє робити обчислення, які ви просто не можете зробити з прямим MLE. Найпростіший випадок полягає в тому, що сьогоднішня задня частина - це завтрашній день . Байєсівський висновок, природно, дозволяє проводити послідовне оновлення, або більше взагалі в Інтернеті або затримку комбінації декількох джерел інформації (включення попереднього - це лише один екземпляр підручника такої комбінації). Баєсівська теорія рішення з функцією нетривіального втрати - ще один приклад. Я б не знав, що робити інакше.

По-друге, з цією відповіддю я спробую стверджувати, що мантра, що кількісне визначення невизначеності, як правило, краще, ніж відсутність невизначеності, є фактично емпіричним питанням, оскільки теореми (як ви вже згадували, і наскільки я знаю) не дають гарантій.

Оптимізація як іграшкова модель наукового починання

Домен , що я відчуваю себе в повній мірі відображає складність проблеми є дуже практичним, без надмірностей один, то оптимізація чорного ящика функції . Ми припускаємо, що можемо послідовно запитувати точку x X і отримати можливо галасливе спостереження y = f ( x ) + ε , при ε N ( 0 , σ 2 ) . Наша мета - максимально наблизитися до x = arg min xf:XRDRxXy=f(x)+εεN(0,σ2) з мінімальною кількістю оцінок функції.x=argminxf(x)

Особливо ефективним способом, як можна очікувати, є побудова прогнозної моделі того, що станеться, якщо я запитую будь-який , і використати цю інформацію, щоб вирішити, що робити далі (локально чи глобально). Дивіться Rios and Sahinidis (2013) для огляду методів глобальної оптимізації, що не похідні. Коли модель є досить складною, це називається мета-моделлю або підходом до функції сурогатної функції або поверхні відповіді . Принципово важливо, що модель може бути точковою оцінкою f (наприклад, відповідність радіальної базисної функції нашим спостереженням), або ми можемо бути баєсівською і якось отримати повне заднє розподіл поxXf (наприклад, через процес Гаусса).f

Байєсова оптимізація використовує заднє над (зокрема, спільне умовне заднє середнє значення та дисперсію в будь-якій точці) для керування пошуком (глобального) оптимуму за допомогою якогось принципового евристичного. Класичним вибором є максимізація очікуваного поліпшення в порівнянні з поточною найкращою точкою, але є навіть більш химерні методи, як мінімізація очікуваної ентропії над місцем мінімального (див. Також тут ).f

Емпіричний результат полягає в тому, що доступ до заднього, навіть якщо частково неправильно визначений, як правило, дає кращі результати, ніж інші методи. (Існують застереження та ситуації, коли байєсівська оптимізація не краща за випадковий пошук, наприклад, у великих розмірах.) У цій роботі ми проводимо емпіричну оцінку нового методу БО порівняно з іншими алгоритмами оптимізації, перевіряючи, чи зручно використовувати БО на практиці з перспективними результатами.

Оскільки ви запитували - це обчислювальна вартість набагато вища, ніж інші не байесівські методи, і вам було цікаво, чому ми повинні бути баєсами Припущення тут полягає в тому, що витрати, пов'язані з оцінкою справжнього (наприклад, у реальному сценарії, складний експеримент з машинобудування або машинного навчання), набагато перевищують обчислювальну вартість для байєсівського аналізу, тому байєсівський окупається .f

Що ми можемо навчитися на цьому прикладі?

По-перше, чому взагалі працює байосівська оптимізація? Я здогадуюсь, що модель помилкова, але не така неправильна, і, як правило, неправильність залежить від того, для чого ваша модель. Наприклад, точна форма не має значення для оптимізації, оскільки ми могли б оптимізувати будь-яке монотонне перетворення їх. Я припускаю, що природа сповнена таких інваріацій. Отже, пошук, який ми робимо, може бути не оптимальним (тобто ми викидаємо хорошу інформацію), але все ж краще, ніж без інформації про невизначеність.f

По-друге, наш приклад підкреслює, що можливо, що корисність бути баєсівською чи ні, залежить від контексту , наприклад, відносної вартості та кількості доступних (обчислювальних) ресурсів. (Звичайно, якщо ви хардкор-байєсист, ви вважаєте, що кожне обчислення є байєсівським висновком за деяким попереднім та / або наближенням.)

Нарешті, велике питання - чому моделі, якими ми користуємося, не дуже погані , в тому сенсі, що афіші все ще корисні, а не статистичні сміття? Якщо ми візьмемо теорему «Без вільного обіду», очевидно, ми не могли б сказати багато чого, але, на щастя, ми не живемо у світі абсолютно випадкових (або змагальних ) функцій.

Більш загально, оскільки ви ставите тегу "філософська" ... Я думаю, ми входимо в область проблеми індукції або необгрунтованої ефективності математики в статистичних науках (конкретно, нашої математичної інтуїції та здатності задавати моделі що працюють на практиці) - в тому сенсі, що з чисто апріорної точки зору немає причин, чому наші здогадки повинні бути хорошими або мати якісь гарантії (і точно ви можете побудувати математичні контрприклади, в яких справи йдуть не так), але вони обертаються щоб добре працювати на практиці.


2
Дивовижна відповідь. Дуже дякую за ваш внесок. Чи є огляд / справедливе порівняння байєсівської оптимізації та звичайних методів оптимізації, що підкреслює, що байєсівська версія є емпірично кращою, як ви заявляєте? (Я цілком чудово приймаю вас до свого слова, але довідка буде корисною)
Гійом Дехаєн,

1
Дякую! Я думаю, що ймовірнісна числова позиція до зброї містить кілька теоретичних та емпіричних аргументів. Я не знаю еталону, який насправді порівнює методи БО зі стандартними методами, але [ тригер попередження: безсоромний штекер ] я в даний час працюю над чимсь у цьому напрямку в області обчислювальної нейронауки; Деякі результати я планую розмістити на arXiv, сподіваюся, протягом найближчих кількох тижнів.
lacerbi

Дійсно, принаймні їх цифра 2 має чітке порівняння. Не могли б ви додати свою роботу до свого головного питання, коли воно закінчиться? Я відчуваю, що це буде цінним доповненням.
Гійом Дехаєн

Так - це їх метод адаптивної байєсівської квадратури, що є досить крутою ідеєю (на практиці її ефективність залежить від того, чи працює наближення GP; що часто майже еквівалентно, якщо говорити про те, що у вас є розумна параметризація вашої проблеми). Я додам посилання на відповідь, коли моя робота буде доступна, дякую.
lacerbi

1
@IMA: Вибачте, я не думаю, що я на 100% сприймаю вашу думку. Я сприймав оптимізацію чорної коробки як іграшну модель наукового починання. Я вважаю, що ви можете зіставити багато кроків і проблем "науки" в цій простішій (але все ж неймовірно складної) області. У моєму аргументі немає припущення "гауссового шуму", це було просто для простоти. Проблеми оптимізації в реальному світі (наприклад, в техніці) можуть бути пошкоджені не гауссовим шумом, і це те, з чим потрібно вирішуватись. А Гауссовим процесам не потрібен гауссовий спостережувальний шум (хоча це робить полегшення висновку).
лазербі

10

Я бачу це лише сьогодні, але все-таки думаю, що я повинен чіпнути, враховуючи, що я є родом експерта і що принаймні два відповіді (№ 3 та 20 (спасибі за посилання на мою роботу Сіань!)) Згадують мою роботу над SafeBayes - зокрема Г. та ван Оммен, "Невідповідність байесівських висновків для неточних лінійних моделей та пропозиція щодо його відновлення" (2014). І я також хотів би додати щось до коментаря 2:

2 говорить: (перевага Байєса при неправильному визначенні - це ...) "Ну, Баєсіан підходить регуляризувати. Це щось, щоб допомогти проти надмірного пристосування - неправильно вказана ваша модель чи ні. Звичайно, це просто призводить до пов'язаного питання про аргументи для байєсівського висновку проти регульованих класичних підходів (ласо тощо) "

Це правда, але важливо додати, що байєсівські підходи можуть недостатньо регулюватися якщо модель неправильна. Це головний момент роботи з Ван Оммен - там ми бачимо, що стандартний Байєс дуже жахливо вписується в якийсь контекст регресії з неправильними, але дуже корисними моделями. Не так вже й погано, як MLE, але все-таки занадто багато, щоб бути корисним. Існує ціла низка роботи (теоретичне та ігрове теоретичне) теоретичне машинне навчання, де вони використовують методи, схожі на Байєса, але зі значно меншою «швидкістю навчання» - роблячи попередні більші дані та менш важливими, тим самим регулюючи більше. Ці методи розроблені для того, щоб добре працювати в найгірших ситуаціях (неправильне уточнення та ще гірше, змагальні дані) - підхід SafeBayes розроблений для "вивчення оптимальної швидкості навчання" з самих даних - і цього оптимального рівня навчання, тобто оптимальної кількості регуляризації,

Крім того, існує народна теорема (згадана декількома вище), яка говорить, що Байєс матиме задній концентрат на розподілі, найближчому за розбіжністю KL до «істини». Але це справедливо лише в дуже жорстких умовах - НАШИМ жорсткіших, ніж умови, необхідні для конвергенції у чітко визначеному випадку. Якщо ви маєте справу зі стандартними низькомірними параметричними моделями, і дані є ідентичними згідно з деяким розподілом (не в моделі), то задній буде дійсно концентруватися навколо точки в моделі, найбільш близької до істини в KL розбіжності. Тепер, якщо ви маєте справу з великими непараметричними моделями, і модель правильна, то (по суті) ваша задня частина все одно зосередиться навколо справжнього розподілу з урахуванням достатньої кількості даних, до тих пір, поки ваш попередній кладе достатню масу в невеликі кульки KL навколо справжнього розподілу. Цеслабкий стан, який потрібен для конвергенції в непараметричному випадку, якщо модель правильна.

Але якщо ваша модель непараметрична, але неправильна, то задня може просто не зосереджуватися навколо найближчої точки KL, навіть якщо ваш попередній розміщує масу близько 1 (!) Там - ваша задня частина може назавжди заплутатися, зосереджуючись на постійно різних розподілах як йде час, але ніколи навколо найкращого. У своїх роботах я маю кілька прикладів того, що відбувається. Документи, які демонструють конвергенцію при неправильному визначенні (наприклад, Kleijn та van der Vaart), потребують багатьох додаткових умов, наприклад модель повинна бути опуклою, або попередня повинна підкорятися певним (складним) властивостям. Це я маю на увазі під "суворими" умовами.

На практиці ми часто маємо справу з параметричними, але дуже високими розмірними моделями (думаю, байєсівська регресія хребта тощо). Тоді, якщо модель неправильна, з часом ваша задня частина зосередиться на найкращому KL-розподілі в моделі, але міні-версія непараметричної непослідовності все-таки має місце: вона може зайняти на порядок більше даних, перш ніж станеться конвергенція - знову ж таки, мій документ із Ван Оммен наводить приклади.

Підхід SafeBayes модифікує стандартні заливи таким чином, що гарантує конвергенцію в непараметричних моделях за (по суті) тих же умов, що і у чітко визначеному випадку, тобто достатню попередню масу поблизу оптимального розподілу KL в моделі (G. and Mehta, 2014 ).

Тоді виникає питання, чи має Байєс навіть виправдання при неправильному визначенні. ІМХО (і як також згадувалося декількома людьми вище), стандартні виправдання Байєса (допустимість, Саваж, Де Фінетті, Кокс тощо) не тримаються тут (адже якщо ви усвідомлюєте, що ваша модель неправильно визначена, ваші ймовірності не представляють ваших справжніх переконань !). ЯКЩО багато методів Байєса також можна інтерпретувати як "методи мінімальної довжини опису (MDL)" - MDL - це теоретично-теоретичний метод, який порівнює "навчання з даних" з "намаганням максимально стиснути дані". Ця інтерпретація стиснення даних (деяких) байєсівських методів залишається дійсною при неправильному визначенні. Так що є ще деякіосновна інтерпретація, що стоїть під помилкою уточнення - все-таки існують проблеми, як показує моя робота з ван Оммен (і інтервал довіри / достовірна задана проблема, згадана в первинному пості).

І тоді остаточне зауваження щодо оригіналу публікації: ви згадуєте виправдання Байєса "допустимості" (повертаючись до повного тм-класу Вальда 40-х / 50-х років). Невже це чи справді є виправданням Байєса, дуже залежить від точного визначення «байєсівського умовиводу» (яке відрізняється від дослідника до дослідника ...). Причина полягає в тому, що ці результати прийнятності дозволяють можливість використання попереднього, що залежить від аспектів проблеми, таких як розмір вибірки та функція втрат, що цікавить і т.д. дані, які вони повинні обробляти змінами, або якщо функція втрати, що цікавить, раптово зміниться. Наприклад, із строго опуклими функціями втрат, Мінімаксні оцінки також є допустимими, хоча зазвичай не вважаються байєсівськими! Причина полягає в тому, що для кожного фіксованого розміру вибірки вони еквівалентні Байєсу з певним попереднім, але пріоритет відрізняється для кожного розміру вибірки.

Сподіваюся, це корисно!


2
Ласкаво просимо до CrossValidated і дякуємо за відповідь на це питання. Незначна примітка - ви не можете розраховувати на те, що відповіді будуть сортовані в тому ж порядку, як і ви; різні люди можуть сортувати за різними порядками (є вибір різних критеріїв сортування у верхній частині найвищого відповіді), і два з цих критеріїв змінюються з часом. Тобто, якщо ви посилаєтесь на них як "№ 3 та 20", люди не знають, які відповіді ви маєте на увазі. [Я також можу знайти лише десять відповідей.]
Glen_b

1
Дякую за чудову відповідь Петро. Мене бентежить ваш коментар, що висновок Байєса в неправильній справі вимагає дуже сильних припущень. На які припущення ви чітко посилаєтесь? Ви говорите про умову, що задній повинен сходитись до розподілу dirac за найкращим значенням параметра? чи ви говорите про більш технічні умови щодо ймовірності, які забезпечують асимптотичну нормальність?
Гійом Дехен

Гаразд, завдяки Глен Б (модератор) - з цього моменту я пам’ятатиму про це.
Пітер Грюнвальд

Гійом - я оновлюю вище, щоб врахувати ваш коментар
Пітер Грюнвальд

7

Існує звичайна компромісна зміна. Байєсівський висновок, припускаючи M-закритий випадок [1,2], має меншу дисперсію [3], але у випадку неправильної специфікації моделі зміщення зростає швидше [4]. Можна також зробити байєсівський висновок, якщо припустити M-відкритий випадок [1,2], який має більшу дисперсію [3], але у випадку неправильної специфікації моделі ухил менший [4]. Дискусії щодо відхилення відхилень у відхиленнях між випадками Bayesian M-закритого та M-відкритого типу також з’являються в деяких джерелах, що містяться у наведених нижче посиланнях, але очевидно, що потрібно більше.

[1] Бернардо і Сміт (1994). Байєсова теорія. Джон Вілі \ і сини.

[2] Vehtari і Ojanen (2012). Огляд байєсівських прогностичних методів для оцінки, вибору та порівняння моделі. Статистичні опитування, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen та Aki Vehtari (2017). Порівняння байєсівських прогностичних методів вибору моделі. Статистика та обчислювальна техніка, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Яо, Vehtari, Сімпсон та Ендрю Гельман (2017). Використання укладання до середніх байесівських прогнозних розподілів. переддрук arXiv arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

Ось декілька інших способів виправдання байєсівських висновків у неправильно визначених моделях.

  • Ви можете побудувати довірчий інтервал на задній середній, використовуючи сендвіч-формулу (так само, як і з MLE). Таким чином, незважаючи на те, що достовірні набори не мають покриття, ви все одно можете створювати допустимі інтервали довіри на оцінках точок, якщо саме це вас цікавить.

  • Ви можете змінити масштаб заднього розподілу, щоб гарантувати, що надійні набори мають покриття, що є таким підходом:

Мюллер, Ульріх К. "Небезпека байєсівського висновку в неправильних моделях та матриці коваріації сендвіч". Econometrica 81.5 (2013): 1805-1849.

  • p(θ)n(θ)-н(θ)гν(θ)+журнал(ν(θ)p(θ))гν(θ)ν(θ)

Дякую за роботу Мюллера: я думаю, що вона відповідає на багато питань, які у мене є.
Гійом Дехаєн

6

ptrue(X)p(X|θ)θ

ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

A,¬Ap(θ|X,ϕ=ϕ0)=0

p(B|E)E=(E1,E2,,En)E, комп'ютерна програма вийде з ладу. Ми виявили це ,, емпірично '', і після деякої думки зрозуміли, що це не привід для занепокоєння, а ціннісний інструмент діагностики, який попереджає нас про непередбачені особливі випадки, коли наше формулювання проблеми може зламатись.

Іншими словами, якщо формулювання вашої проблеми є неточним - якщо ваша модель неправильна, байєсівська статистика може допомогти вам з’ясувати, що це так, і може допомогти вам знайти, який аспект моделі є джерелом проблеми.

На практиці може бути не зовсім зрозуміло, яке знання є актуальним і чи варто його включати у виведення. Потім використовуються різні методи перевірки моделей (глави 6 та 7 у Gelman et al., 2013, огляд) для з'ясування та виявлення неточної постановки проблеми.

Гельман, А., Карлін, Дж. Б., Стерн, HS, Дансон, DB, Vehtari, A., & Rubin, DB (2013). Байєсівський аналіз даних, Третє видання. Chapman & Hall / CRC.

Jaynes, ET (2003). Теорія ймовірностей: Логіка науки. Кембриджська університетська преса.


1
XiXi

1
@GuillaumeDehaene Ваше питання полягав у тому, чи існують якісь аргументи для використання байєса, коли модель не визначена. Очевидно, що катастрофічно неправильно визначена модель не визначена. Крім того, ви не можете знати apriori, чи ваша модель катастрофічно неправильно визначена чи просто неправильно вказана. Насправді Байєс може точно сказати вам це, що робить його корисним, і моя відповідь наголосила на цьому.
мат.

1α

p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0

5

MLE все ще є оцінкою для параметра в моделі, яку ви вказали, і вважаєте, що вона є правильною. Коефіцієнти регресії в частоту-OLS можна оцінити за допомогою MLE, а всі властивості, які ви хочете приєднати до нього (неупереджена, специфічна асимптотична дисперсія), все ще вважають, що ваша дуже конкретна лінійна модель є правильною.

Я збираюся зробити цей крок далі і скажу, що кожного разу, коли ви хочете приписати значення та властивості оцінювачу, ви повинні взяти модель. Навіть коли ви берете просту середню вибірку, ви припускаєте, що дані обмінні та часто IID.

Тепер, байєсівські оцінки мають багато бажаних властивостей, яких MLE може не мати. Наприклад, часткове об'єднання, регуляризація та інтерпретація задника, що робить його бажаним у багатьох ситуаціях.


Вам не потрібно вважати IID для того, щоб надати значення. Досить припустити
обмінність

@kjetil b halvorsen Дякую, я редагував для наочності.
TrynnaDoStat

4

Я рекомендую філософію Gelman & Shalizi та практику байєсівської статистики . Вони мають узгоджені, детальні та практичні відповіді на ці питання.

Ми вважаємо, що більшість отриманих поглядів на байєсівські умовиводи є неправильним. Байєсівські методи не індуктивніші, ніж будь-який інший спосіб статистичного висновку. Байєсівський аналіз даних набагато краще зрозуміти з гіпотетико-дедуктивної точки зору . Імпліцит у кращій байєсівській практиці - це така позиція, яка має багато спільного з помилково-статистичним підходом Майо (1996), незважаючи на частістьну орієнтацію останнього. Дійсно, важливі частини аналізу даних Баєса, такі як перевірка моделі, можна розуміти як «зонди помилок» в сенсі Майо.

Ми виходимо з комбінації з вивчення конкретних випадків аналізу байесівських даних в емпіричному суспільствознавчому дослідженні та теоретичних результатів щодо послідовності та конвергенції байесівських оновлень. Соціально-науковий аналіз даних особливо важливий для наших цілей, оскільки існує загальна згода, що в цій галузі всі використовувані моделі є помилковими - не просто фальсифікованими, а фактично помилковими. Маючи достатньо даних - і часто лише досить помірної кількості - будь-який аналітик може відхилити будь-яку модель, яка зараз використовується, до будь-якого бажаного рівня впевненості . Тим не менш, встановлення моделей є цінною діяльністю, і це справді суть аналізу даних. Щоб зрозуміти, чому це так, нам потрібно вивчити, як моделі будуються, встановлюються, використовуються та перевіряються, а також наслідки неправильної специфікації на моделях.

...

На наш погляд, виклад останнього абзацу [стандартного байєсівського погляду] є грубо помилковим. Процес аналізу даних - баєсівський чи іншим способом - не закінчується обчисленням оцінок параметрів або заднього розподілу. Скоріше модель можна перевірити, порівнюючи наслідки пристосованої моделі з емпіричними доказами. Слід задати такі питання, як моделювання з вбудованої моделі нагадують вихідні дані, чи відповідає відповідна модель іншим даним, які не використовуються при встановленні моделі, та чи змінні, про які каже модель, є шумом ("терміни помилок") у відображення фактів, що легко виявляються. Розбіжності між моделлю та даними можуть бути використані для того, щоб дізнатися про способи, в яких модель є неадекватною для наукових цілей, і, таким чином, мотивувати розширення та зміни моделі (Розділ 4.).


2

xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

xmxm


3
Усереднення моделей нас не може врятувати: все одно нерозумно вважати, що справжня модель якось акуратно потрапляє до сфери нашої більшої моделі. За допомогою порівняння моделей ми можемо визначити, яка з кількох моделей дає найкращий облік даних, але це просто повертає неправильну модель, яка є менш помилковою, ніж інші моделі.
Гійом Дехен

Це може допомогти вам зробити висновки / оцінки щодо невідомої величини, яка послідовно містить невизначеність моделі. Однак він не може придумати нові гіпотези для вас. Якби були статистичні машини, які вигадували моделі з урахуванням даних, наприклад, наука була б набагато простішою.
innisfree

1

Як Ви визначаєте, що таке "неправильно вказана" модель? Чи означає це модель ...

  • робить "погані" прогнози?
  • pT(x)
  • відсутній параметр?
  • призводить до «поганих» висновків?

Якщо ви думаєте про способи, як дана модель могла бути неправильно вказана, ви по суті будете отримувати інформацію про те, як зробити кращу модель. Включіть додаткову інформацію у свою модель!

Якщо ви думаєте про те, що таке "модель" в байєсівській рамці, ви завжди можете зробити модель, яку не можна неправильно вказати. Один із способів зробити це - додавши більше параметрів до вашої поточної моделі. Додавши більше параметрів, ви зробите свою модель більш гнучкою та адаптованою. Методи машинного навчання в повній мірі використовують цю ідею. Це лежить в основі таких речей, як "нурерні мережі" та "дерева регресії". Вам потрібно подумати про пріорів (подібно до регуляризації для ML).


model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

wiN(0,1)


xf(x)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.