Чи стають байєсові пріори неактуальними при великому розмірі вибірки?


26

Виконуючи байєсівські умовиводи, ми працюємо, максимізуючи нашу функцію ймовірності в поєднанні з пріорами, які ми маємо про параметри. Оскільки ймовірність журналу зручніша, ми ефективно максимізуємо за допомогою MCMC або іншим способом, який генерує задні розподіли (використовуючи pdf для попередній і вірогідність кожної точки даних).ln(prior)+ln(likelihood)

Якщо у нас є багато даних, ймовірність цього перекриє будь-яку інформацію, яку попередньо надає, простою математикою. Зрештою, це добре і за дизайном; ми знаємо, що задня частина сходиться до ймовірності з більшою кількістю даних, тому що це передбачається.

Для проблем, визначених спряженими пріорами, це навіть можна точно довести.

Чи є спосіб вирішити, коли пріори не мають значення для заданої функції ймовірності та певного розміру вибірки?


3
Ваше перше речення невірно. Байєсівські умовиводи та алгоритм MCMC не збільшують ймовірність.
niandra82

5
Чи знайомі ви з граничною ймовірністю, факторами Байєса, попереднім / заднім прогнозним розподілом, попередньою / задньою прогностичною перевіркою? це тип речей, які ви б використали для порівняння моделей у байєсівській парадигмі. Я думаю, що це питання зводиться до того, чи буде коефіцієнт Байєса між моделями, які відрізняються лише попереднім рівнем, до 1, оскільки розмір вибірки піде до нескінченності. Ви також можете залишити вбік пріори, які усічені в просторі параметрів, що має на увазі ймовірність, оскільки це потенційно може заперечувати ціль від наближення до максимальної оцінки ймовірності.
Захарій Блуменфельд

@ZacharyBlumenfeld: це може бути кваліфікованою відповіддю!
Сіань

Чи виправлена ​​форма "максимізація правила Байєса"? Також моделі, з якими я працюю, є фізично заснованими, тому усічені простори простору є необхідністю для роботи. (Я також погоджуюсь, що ваші коментарі, ймовірно, відповідь. Чи можете ви їх тіснити @ZacharyBlumenfeld?)
пікселі

Відповіді:


37

Це не так просто. Інформація у ваших даних переповнює попередню інформацію, не тільки розмір вибірки великий, але коли ваші дані надають достатньо інформації, щоб перекрити попередню інформацію. Неінформативні пріори легко переконуються в даних, тоді як сильно інформативні можуть бути більш стійкими. У крайньому випадку, з неправильно визначеними пріорами, ваші дані можуть взагалі не в змозі їх подолати (наприклад, нульова щільність в якомусь регіоні).

Нагадаємо, що за теоремою Байєса ми використовуємо в нашій статистичній моделі два джерела інформації, застарілі дані, попередні відомості та інформацію, передану даними в функції вірогідності :

posteriorprior×likelihood

Використовуючи неінформативну попередню (або максимальну ймовірність), ми намагаємось внести до нашої моделі мінімально можливу попередню інформацію. За допомогою інформативних пріорів ми вносимо значну кількість інформації у модель. Отже, і ті, і інші, і попередні, інформують нас про те, які значення оцінюваних параметрів є більш правдоподібними або правдоподібними. Вони можуть приносити різну інформацію, і кожен з них може перемогти іншу в деяких випадках.

Дозвольте проілюструвати це дуже базовою бета-біноміальною моделлю ( детальний приклад див. Тут ). З "неінформативним" попереднім , досить малого зразка може бути достатньо для його подолання. На графіках нижче можна побачити пріори (червона крива), вірогідність (синя крива) та афіші (фіолетова крива) тієї ж моделі з різними розмірами вибірки.

введіть тут опис зображення

З іншого боку, ви можете мати інформаційне попереднє значення, яке близьке до справжнього значення, що також було б легко, але не так легко, як з тижневим інформативним, переконуваним даними.

введіть тут опис зображення

Випадок дуже відрізняється від попереднього інформаційного характеру, коли це далеко не те, що кажуть дані (використовуючи ті самі дані, що і в першому прикладі). У такому випадку вам потрібен більший зразок, щоб подолати попередній.

введіть тут опис зображення

Тож мова йде не лише про розмір вибірки, а й про те, які ваші дані та що є вашими попередніми. Зауважте, що це бажана поведінка, оскільки, використовуючи інформаційні пріори, ми хочемо потенційно включати інформацію, яка не є даною, у нашу модель, і це було б неможливо, якби великі вибірки завжди відкидали пріори.

Зважаючи на складні відносини, пов'язані з попередньою вірогідністю, завжди добре подивитися на задній розподіл і зробити деякі задні прогнозні перевірки (Gelman, Meng and Stern, 1996; Gelman and Hill, 2006; Gelman et al, 2004). Більше того, як описано Spiegelhalter (2004), ви можете використовувати різні пріори, наприклад "песимістичні", які виражають сумніви щодо великих ефектів, або "ентузіастичні", які оптимістично оцінюють оцінений ефект. Порівняння того, як різні пріорі поводяться з вашими даними, може допомогти неформально оцінити ступінь впливу попереднього впливу.


Spiegelhalter, DJ (2004). Включення байєсівських ідей в оцінку охорони здоров'я. Статистична наука, 156-174.

Гельман, А., Карлін, Дж. Б., Стерн, Х. С., і Рубін, Д. Б. (2004). Байєсівський аналіз даних. Chapman & Hall / CRC.

Гельман, А. та Хілл, Дж. (2006). Аналіз даних за допомогою регресійної та багаторівневої / ієрархічної моделей. Cambridge University Press.

Гельман, А., Менг, XL і Стерн, Х. (1996). Задня прогнозована оцінка придатності моделі за допомогою усвідомлених розбіжностей. Statistica sinica, 733-760.


2
Гарний внесок, дякую Тіме. Я хотів би додати, що контраст, який ви так красиво викладаєте тут, може проявити себе навіть в одній і тій же моделі , що стосується різних параметрів цієї моделі. Можливо, є деякі параметри, щодо яких дані пропонують мізерну інформацію, і в цьому випадку пріорі можуть критично служити для виявлення обмежень .
Девід К. Норіс

У першій 3x3 матриці графіків правильні графіки? Задня частина повністю плоска до і включає n = 25?
MichiganWater

1
@MichiganWater кожна 9-сюжетна колекція використовує однакову шкалу для осі y, щоб найбільші значення не виходили з екрана. Тож вони є рівними щодо випадку, коли у вас є більше даних. Якщо ви "збільшили масштаб", вони не будуть рівними.
Тім

11

Виконуючи байєсівські умовиводи, ми працюємо, максимізуючи нашу функцію ймовірності в поєднанні з пріорами, які ми маємо про параметри.

Це насправді не те, що більшість практикуючих вважає байєсівським висновком. Оцінити параметри можна таким чином, але я б не назвав це байєсівським висновком.

Байєсівський висновок використовує задній розподіл для обчислення задніх ймовірностей (або співвідношень ймовірностей) для конкуруючих гіпотез.

Задні розподіли можна оцінити емпірично методами Монте-Карло або Маркова-Ланцюга Монте-Карло (MCMC).

Відклавши ці відмінності, питання

Чи стають байєсові пріори неактуальними при великому розмірі вибірки?

все ще залежить від контексту проблеми та того, що вас хвилює.

Якщо вам важливо передбачити дану вже дуже велику вибірку, то відповідь, як правило, так, пріори асимптотично не мають значення *. Однак, якщо вас цікавить вибір моделей та тестування гіпотези Байесова, то відповідь "ні", пріорі важливі, і їхній ефект не погіршиться з розміром вибірки.

* Тут я припускаю, що апріори не врізані / цензуровані за межами простору параметрів, що має на увазі ймовірність, і що вони не так визначені, щоб викликати проблеми конвергенції з майже нульовою щільністю у важливих регіонах. Мій аргумент також є асимптотичним, що стосується всіх регулярних застережень.

Прогнозовані щільності

dN=(d1,d2,...,dN)dif(dNθ)θ

π0(θλ1)π0(θλ2)λ1λ2

πN(θdN,λj)f(dNθ)π0(θλj)forj=1,2

θθNjπN(θгN,λj)thetas ; 1 Н & thetas ; 2 N & thetas ; Nthetas*е>0θ^N=максθ{f(гNθ)}θN1θN2θ^Nθε>0

limNПr(|θNj-θ|ε)=0j{1,2}limNПr(|θ^N-θ|ε)=0

Щоб бути більш узгодженою з вашою процедурою оптимізації, ми могли б альтернативно визначити хоча цей параметр сильно відрізняється то раніше визначені, вищезазначені асимптотики все ще зберігаються.θNj=максθ{πN(θгN,λj)}

Звідси випливає, що прогнозовані щільності, які визначаються як у правильному байєсівському підході або за допомогою оптимізації перетворіть розподіл на . Отже, що стосується прогнозування нових спостережень, що обумовлюються вже дуже великою вибіркою, попередня специфікація не має асимптотичної різниці .f(г~гN,λj)=Θf(г~θ,λj,гN)πN(θλj,гN)гθf(г~гN,θNj)f(г~гN,θ)

Вибір моделі та тестування гіпотез

Якщо хтось зацікавлений у виборі байєсівської моделі та тестуванні гіпотез, вони повинні знати, що ефект попереднього не зникає асимптотично.

У байєсівській обстановці ми б обчислили задню ймовірність або коефіцієнти Байєса з граничною ймовірністю. Гранична ймовірність - це ймовірність даних, що задаються моделлю, тобто .f(гNмогел)

Коефіцієнт Байєса між двома альтернативними моделями - це співвідношення їх граничної ймовірності; Задня ймовірність для кожної моделі у набір моделей також може бути розрахований з їх граничної ймовірності; Це корисні показники, які використовуються для порівняння моделей.

КN=f(гNмогел1)f(гNмогел2)
Пr(могелjгN)=f(гNмогелj)Пr(могелj)л=1Lf(гNмогелл)Пr(могелл)

Для вищезгаданих моделей гранична ймовірність розраховується як;

f(гNλj)=Θf(гNθ,λj)π0(θλj)гθ

Однак ми також можемо подумати про послідовне додавання спостережень до нашої вибірки та записати граничну ймовірність як ланцюжок прогнозних ймовірностей ; Зверху ми знайте, що переходить до , але це як правило, не вірно, що до , а також не конвергується в

f(гNλj)=н=0N-1f(гн+1гн,λj)
f(гN+1гN,λj)f(гN+1гN,θ)f(гNλ1)f(гNθ)f(гNλ2). Це має бути очевидним, враховуючи позначення товару вище. Хоча останні терміни у творі будуть все більше подібними, початкові умови будуть різними, через це фактор Байєса Це питання, якщо ми хотіли б обчислити коефіцієнт Байєса для альтернативної моделі з різною вірогідністю та попередньою моделлю. Наприклад, розглянемо граничну ймовірність ; тоді
f(гNλ1)f(гNλ2)p1
год(гNМ)=Θгод(гNθ,М)π0(θМ)гθ
f(гNλ1)год(гNМ)f(гNλ2)год(гNМ)
асимптотично чи іншим чином. Те ж саме може бути показано і для задньої ймовірності. У цій установці вибір попереднього суттєво впливає на результати висновку незалежно від розміру вибірки.

5

Ще одне питання, про який слід пам’ятати, - це те, що ви можете мати багато даних , але все ще маєте дуже мало інформації про певні параметри вашої моделі. У таких випадках навіть легкий інформативний поперед може бути дуже корисним при здійсненні висновку.

Припустимо, як дурний приклад, ви порівнювали засоби двох груп, і у вас було 1 000 000 зразків групи 1 та 10 зразків групи 2. Тоді чітке ознайомлення з інформацією про групу 2 може покращити умовивід, навіть якщо ви зібрали понад мільйон зразки.

І хоча цей приклад може бути тривіальним, він починає вести деякі дуже важливі наслідки. Якщо ми хочемо зрозуміти деякі складні явища, розумною справою є збирання великої кількості інформації про частини, які ми не розуміємо, і менше інформації про деталі, які ми розуміємо. Якщо ми збираємо багато даних таким чином, викидання попереднього, оскільки у нас багато даних, це дійсно поганий вибір; ми просто повернули свій аналіз, оскільки ми не витрачали час на збір даних про речі, які ми вже знаємо!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.