Який байєсівський еквівалент загального тесту на придатність?


25

У мене є два набори даних, один із набору фізичних спостережень (температур) та один із ансамблю числових моделей. Я роблю аналіз ідеальної моделі, припускаючи, що модельний ансамбль є справжньою, незалежною вибіркою, і перевіряю, чи спостереження проведені з цього розподілу. Статистику, яку я підрахував, нормалізується і теоретично повинна бути стандартним нормальним розподілом. Звичайно, це не ідеально, тому я хочу перевірити на якість підгонки.

Використовуючи частоталістичні міркування, я міг обчислити статистику Крамера-фон Мізеса (або Колмогорова-Смірнова тощо), або подібну, і шукати значення в таблиці, щоб отримати p-значення, щоб допомогти мені вирішити, наскільки малоймовірно значення I див., враховуючи, що спостереження такі ж, як і модель.

Яким був би баєсовський еквівалент цього процесу? Тобто, як я можу оцінити силу моєї віри в те, що ці два розподіли (моя обчислена статистика і стандарт норма) відрізняються?


Що - щось на зразок цього може відповідати вимогам.
Cyan

Відповіді:


23

Я б запропонував книгу Байєсівський аналіз даних як чудове джерело для відповіді на це питання (зокрема, глава 6) і все, що я збираюся сказати. Але один із звичайних способів нападу байєсів на цю проблему - це використання задніх прогнозних Р-значень (PPP). Перш ніж перейти до того, як ДПП вирішить цю проблему, дозвольте спершу визначити наступне позначення:

Нехай - спостережувані дані, - вектор параметрів. Визначимо як реплицируются дані , які могли б спостерігалися, або, пророкуванням думати, як дані ми б побачити завтра , якщо експеримент , який справив сьогодні були скопійовані з однієї і тієї ж моделі і того ж значення яке створило спостережувані дані.θ y rep y θуθуреспуθ

Зауважимо, ми визначимо розподіл урахуванням поточного стану знань із заднього прогнозного розподілу p ( y rep | y ) = Θ p ( y rep | θ ) p ( θ | y ) d θуресп

p(уресп|у)=Θp(уресп|θ)p(θ|у)гθ

Тепер ми можемо виміряти розбіжність між моделлю та даними, визначивши тестові кількості , аспекти даних, які ми хочемо перевірити. Тестова кількість або міра невідповідності , , - це скалярний підсумок параметрів і даних, який використовується в якості стандарту при порівнянні даних з прогнозними моделюваннями. Тестові кількості відіграють роль у байєсівській моделі, перевіряючи, чи відіграє статистика тестів у класичному тестуванні. Ми визначимо позначення для тестової статистики, яка є тестовою кількістю, яка залежить лише від даних; в баєсівському контексті ми можемо узагальнити статистику тестів, щоб дозволити залежність від параметрів моделі при їх задньому розподілі.T ( y )Т(у,θ)Т(у)

Класично значення р для тестової статистики є де взята ймовірність над розподілом з фіксованим.p C = Pr ( T ( y rep ) T ( y ) | θ ) y rep θТ(у)

pС=Пр(Т(уресп)Т(у)|θ)
уреспθ

З байєсівської точки зору, невідповідність даних відносно заднього прогнозного розподілу може бути виміряна імовірністю площі хвоста або р-значенням тестової кількості та обчислена за допомогою заднього моделювання . У байєсівському підході випробувальні величини можуть бути функціями невідомих параметрів, а також даними, оскільки кількість випробувань оцінюється на основі креслень із заднього розподілу невідомих параметрів.(θ,уресп)

Тепер ми можемо визначити байєсівське p-значення (PPP) як ймовірність того, що реплікувані дані можуть бути більш екстремальними, ніж спостережувані дані, виміряні кількістю тесту: де вірогідність приймається за задній розподіл і задній прогнозний розподіл (що є спільний розподіл, ): де - функція індикатора. На практиці, хоча ми зазвичай обчислюємо задній прогнозний розподіл за допомогою симуляцій.

pБ=Пр(Т(уресп,θ)Т(у,θ)|у)
θуреспp(θ,уресп|у)
pБ=ΘЯТ(уресп,θ)Т(у|θ)p(уресп|θ)p(θ|у)гуреспгθ,
Я

Якщо ми вже маємо, скажімо, моделювання із заднього розподілу , то ми можемо просто намалювати один з прогнозного розподілу для кожного модельованого ; тепер у нас є малюнки із спільного заднього розподілу, . Задня передбачувальна перевірка - це порівняння між реалізованими величинами випробувань та прогнозними величинами тесту . Орієнтовне p-значення - це лише частка цих моделей для яких кількість випробувань дорівнює або перевищує його реалізоване значення; тобто для чогоθ y rep θ L p ( y rep , θ | y ) T ( y , θ l ) T ( y rep l , θ l ) L T ( y rep l , θ l ) T ( y , θ l ) l = 1 , . . . , LLθуреспθLp(уресп,θ|у)Т(у,θл)Т(уреспл,θл)L

Т(уреспл,θл)Т(у,θл)
для . л=1,...,L

На відміну від класичного підходу, перевірка моделі Байєса не вимагає спеціальних методів обробки "неприємних параметрів". Використовуючи заднє моделювання, ми неявно оцінюємо серед усіх параметрів моделі.

Додатковим джерелом Ендрю Гельман також є дуже приємний документ про PPP тут: http://www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf


3

Одна порівняно проста можливість: плавні випробування на придатність придатності, наприклад [1], - які визначають альтернативу з точки зору плавних відхилень від нуля, побудованих ортогональними многочленами (щодо нульової щільності як функції ваги), були б відносно простими переходять до байєсівської рамки, оскільки коефіцієнти многочленів утворюють гнучко-але параметричне розширення нуля.

[1]: Рейнер, JCW та DJ Best (1990),
"Гладкі тести доброти придатності: огляд",
Міжнародний статистичний огляд , 58 : 1 (квітень), стор 9-17

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.