Коефіцієнт ймовірності та коефіцієнт Байєса


61

Я досить євангелістичний щодо використання коефіцієнтів ймовірності для представлення об'єктивних доказів для / проти даного явища. Однак нещодавно я дізнався, що фактор Байєса виконує аналогічну функцію в контексті байєсівських методів (тобто суб'єктивний попередній поєднується з об'єктивним фактором Байєса для отримання об'єктивно оновленого суб'єктивного стану віри). Зараз я намагаюся зрозуміти обчислювальні та філософські відмінності між коефіцієнтом ймовірності та фактором Байєса.

На обчислювальному рівні я розумію, що хоча коефіцієнт ймовірності зазвичай обчислюється з використанням ймовірностей, які представляють максимальну ймовірність відповідної параметризації кожної моделі (або оцінюється шляхом перехресної перевірки, або штрафується відповідно до складності моделі за допомогою AIC), очевидно, фактор Байєса якось використовує ймовірності, які представляють вірогідність кожної моделі, інтегрованої у цілому просторі параметрів (тобто не тільки на MLE). Як ця інтеграція фактично досягається? Чи справді просто намагаються обчислити ймовірність на кожному з тисяч (мільйонів?) Випадкових вибірок з простору параметрів, чи існують аналітичні методи інтеграції ймовірності через простір параметрів? Крім того, при обчисленні коефіцієнта Байєса

Також, які філософські відмінності між коефіцієнтом ймовірності та фактором Байєса (я не запитую про філософські відмінності між коефіцієнтом ймовірності та методами Байєса загалом, але фактор Байєса як репрезентації об'єктивних доказів конкретно). Як можна було б охарактеризувати значення фактора Байєса порівняно з коефіцієнтом ймовірності?


5
Чи розглядали ви приклад у Вікіпедії
Генрі

1
Книга Чен, Шао та Ібрагіма (2000) присвячена обчисленню факторів Байєса в Монте-Карло.
Сіань

Відповіді:


36

Мабуть, фактор Байєса якось використовує ймовірності, які представляють вірогідність кожної моделі, інтегрованої у цілому просторі параметрів (тобто, не тільки в MLE). Як ця інтеграція фактично досягається? Чи справді просто намагаються обчислити ймовірність на кожному з тисяч (мільйонів?) Випадкових вибірок з простору параметрів, чи існують аналітичні методи інтеграції ймовірності через простір параметрів?

По-перше, будь-яка ситуація, коли ви вважаєте такий термін, як для даних і модель , вважається моделлю ймовірності . Це часто хліб і масло будь-якого статистичного аналізу, часто-чи байєсівського, і саме ця частина, яку повинен запропонувати ваш аналіз, є або гарною, або поганою. Тож фактори Байєса не роблять нічого принципово іншого, ніж коефіцієнти ймовірності.P(D|M)DM

Важливо поставити фактори Байєса в правильному налаштуванні. Якщо у вас є дві моделі, скажімо, і ви перетворюєте з ймовірностей в коефіцієнти, тоді фактори Байєса діють як оператор за попередніми переконаннями:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

Справжня різниця полягає в тому, що коефіцієнти ймовірності обчислюються дешевше і їх, як правило, концептуально простіше визначити. Ймовірність у MLE - це лише бальна оцінка чисельника та знаменника коефіцієнта Байєса відповідно. Як і у більшості частістських споруд, це може розглядатися як особливий випадок байєсівського аналізу з надуманим попереднім, що важко отримати. Але в основному це виникло тому, що це аналітично простежується і простіше обчислити (в епоху до того, як виникли приблизні байєсівські обчислювальні підходи).

Якщо говорити про обчислення, так: ви оціните різні інтеграли ймовірності в байєсівській обстановці за допомогою широкомасштабної процедури Монте-Карло практично у будь-якому випадку, що представляє практичний інтерес. Є деякі спеціалізовані тренажери, такі як GHK, які працюють, якщо ви припускаєте певні розподіли, і якщо ви робите ці припущення, іноді ви можете знайти аналітично простежувані проблеми, для яких існують повністю аналітичні фактори Байєса.

Але їх ніхто не використовує; немає підстав для цього. З оптимізованими пробовідбірниками Metropolis / Gibbs та іншими методами MCMC цілком простежено підходити до цих проблем повністю керованим даними способом та обчислювати ваші інтеграли чисельно. Насправді, часто це робиться ієрархічно та надалі інтегруватиме результати за метаприорами, що стосуються механізмів збору даних, неігнорованих експериментальних конструкцій тощо.

Для більшої інформації про це я рекомендую книгу Байєсівський аналіз даних . Хоча автор, Ендрю Гелман, здається, не надто піклується про фактори Байєса . Як осторонь я згоден з Гельманом. Якщо ви збираєтеся їхати Байесіаном, то експлуатуйте повну задню частину. Вибір моделі методами Байєса - це як перешкода їх вибору, оскільки вибір моделей є слабкою і здебільшого марною формою висновку. Я скоріше знаю розподіл за вибором моделі, якщо я можу ... хто переймається його квантуванням до "моделі A краще, ніж типу B" таких висловлювань, коли не потрібно?

Крім того, під час обчислення коефіцієнта Байєса застосовується корекція складності (автоматично за допомогою перехресної перевірки оцінки ймовірності чи аналітично через AIC), як це стосується коефіцієнта ймовірності?

Це одна з приємних речей про байєсівські методи. Фактори Байєса автоматично враховують складність моделі в технічному розумінні. Ви можете встановити простий сценарій з двома моделями, і з припущеними складностями моделі і відповідно, з і розміром вибірки .M1M2d1d2d1<d2N

Тоді, якщо - коефіцієнт Байєса з в чисельнику, при припущенні, що є істинним, можна довести, що як , підходить зі швидкістю, яка залежить від різниці в складності моделі, і що фактор Байєса сприяє більш простої моделі. Більш конкретно, ви можете показати, що згідно з усіма наведеними вище припущеннями,B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

Мені знайоме це виведення та дискусія з книги " Кінцева суміш і марковські моделі перемикання " Сільвії Фрюхвірт-Шнаттер, але, ймовірно, є більш прямі статистичні дані, які більше заглиблюються в гносеологію, що лежить в основі її.

Я не знаю деталей досить добре, щоб надати їх тут, але я вважаю, що між цим та виведенням AIC є деякі досить глибокі теоретичні зв’язки. Книга Теорії інформації Обкладинки та Томаса натякнула на це принаймні.

Також, які філософські відмінності між коефіцієнтом ймовірності та фактором Байєса (я не запитую про філософські відмінності між коефіцієнтом ймовірності та методами Байєса загалом, але фактор Байєса як репрезентації об'єктивних доказів конкретно). Як можна було б охарактеризувати значення фактора Байєса порівняно з коефіцієнтом ймовірності?

Розділ статті Вікіпедії на тему "Інтерпретація" добре справляється з цим обговоренням (особливо діаграмою, що показує масштабність доказів Джеффріса).

Як і зазвичай, філософських речей не так вже й багато, ніж основні відмінності між байєсівськими методами та частофілістськими методами (які вам здаються вже знайомими).

Головне, щоб коефіцієнт вірогідності не був узгодженим у книжковому сенсі Голландії. Ви можете скласти сценарії, коли висновок вибору моделі з коефіцієнтів ймовірності призведе до того, що ви приймете програшні ставки. Байєсівський метод є когерентним, але діє на попередньому рівні, який може бути вкрай поганим і його слід вибирати суб'єктивно. Компроміси .. компроміси ...

FWIW, я думаю, що такий вибір сильно параметризованих моделей не є дуже хорошим висновком. Я віддаю перевагу байєсівським методам, і я вважаю за краще організувати їх більш ієрархічно, і я хочу, щоб висновок був зосереджений на повному задньому розподілі, якщо це взагалі обчислювально можливо. Я думаю, що фактори Байєса мають деякі акуратні математичні властивості, але як сам баєс, я не вражений ними. Вони приховують дійсно корисну частину байєсівського аналізу, який полягає в тому, що він змушує вас мати справу зі своїми пріорами на відкритому повітрі, а не підмітати їх під килим, і дозволяє робити висновки на повних плакатів.


"Як зазвичай, філософських речей не надто багато, ніж основні відмінності між байєсівськими методами та методами частолістів (які, здається, вам уже знайомі). Головне, тест на коефіцієнт ймовірності ..." Просто питання уточнення, я не робив Не маю наміру порівнювати коефіцієнти Байєса з тестами співвідношення ймовірності, але з коефіцієнтами ймовірності самостійно, без частого / нульової гіпотези, що перевіряє багаж.
Майк Лоуренс

Відповідно до мого уточнення вище: Отже, мені здається, велика різниця між BF та LRs полягає в тому, що, як ви кажете, колишні автоматичні корекції складності, але вимагають багато обчислень, тоді як другі вимагають набагато менших обчислень, але вимагають явної корекції для складності моделі (або з використанням AIC, який обчислюється швидко, або з перехресною валідацією, що є досить обчислювально затратною).
Майк Лоуренс

Вибачте, тест на коефіцієнт ймовірності був помилковим, мав би бути просто коефіцієнтом ймовірності. Я думаю, що ти здебільшого правий, але ти все ще пропускаєш більшу картину, що коефіцієнт ймовірності - це лише бальна оцінка. Це стане в нагоді лише в тому випадку, якщо основні розподіли ймовірностей поводяться добре до квадратичного наближення в околиці MLE .. Факторам Байєса не потрібно дбати про такі властивості асимптотичного розподілу, тому це конкретно більш загальне. Він включає в себе умови вибору моделі на основі MLE.
ely

1
Інакше кажучи, MLE може розглядатися як максимум післяоценовий оцінювач (MAP), лише з неправильним попереднім (коли інтеграція дозволяє це), а MAP - більш переконлива оцінка, оскільки вона містить попередню інформацію. Тепер, замість того, щоб просто вибрати режим заднього ... чому б не поєднати всі значення задньої частини відповідно до їх попередньої ймовірності? Він не дасть точну оцінку параметрів, але найчастіше люди не хочуть бальної оцінки. Розподіл за параметрами завжди корисніший, ніж бальні оцінки, коли ви можете дозволити їх отримати
ely

11

Розуміючи різницю між коефіцієнтами ймовірності та коефіцієнтами Байєса, корисно більш детально розглянути одну ключову особливість факторів Байєса:

Як факторам Байєса вдається автоматично враховувати складність базових моделей?

Однією з точки зору цього питання є розгляд методів детермінованого наближеного висновку. Варіаційний Байєс - один з таких методів. Це може не лише різко зменшити обчислювальну складність стохастичних наближень (наприклад, вибірки MCMC). Варіаційний Байєс також забезпечує інтуїтивне розуміння того, що складає фактор Байєса.

Нагадаємо спочатку, що фактор Байєса базується на доказових моделях двох конкуруючих моделей,

BF1,2=p(dataM1)p(dataM2),

де окремі докази моделі повинні бути обчислені складним інтегралом:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

Цей інтеграл необхідний не тільки для обчислення коефіцієнта Байєса; він також потрібен для висновку щодо самих параметрів, тобто при обчисленні .p(θdata,Mi)

Варіаційний варіант Байєса з фіксованою формою вирішує цю проблему, роблячи припущення про розподіл щодо умовних плакатів (наприклад, припущення Гаусса). Це перетворює складну проблему інтеграції в набагато простішу задачу оптимізації: проблему пошуку моментів приблизної щільності , максимально схожих на справжній, але невідомий, задній .q(θ)p(θdata,Mi)

Варіаційне числення говорить нам, що цього можна досягти, максимізувавши так звану негативну вільну енергію , яка безпосередньо пов'язана з доказами моделі журналу:F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

З цього видно, що максимізація негативної вільної енергії не дає нам лише приблизного заднього . Оскільки розбіжність Куллбека-Лейблера є негативною, також забезпечує нижню межу самих доказів моделі (log) .q(θ)p(θdata,Mi)F

Тепер ми можемо повернутися до оригінального питання про те, як фактор Байеса автоматично врівноважує якість придатності та складність моделей, що стосуються. Виявляється, негативну вільну енергію можна переписати так:

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

Перший термін - це вірогідність журналу даних, очікуваних під приблизною задньою; це відображає корисність придатності (або точності ) моделі. Другий член - це розбіжність KL між приблизною задньою і попередньою; вона представляє складність моделі, вважаючи, що простіша модель є тією, яка більше відповідає нашим попереднім переконанням, або згідно з думкою, що для прийняття даних більш просту модель не потрібно розтягувати.

Наближення вільної енергії до доказів моделі журналу показує, що докази моделі містять компроміс між моделюванням даних (тобто, придатність придатності) та залишаючись узгодженими з нашими попередніми (тобто простотою або негативною складністю).

Таким чином, фактор Байєса (на відміну від коефіцієнта ймовірності) говорить про те, яка з двох конкуруючих моделей краще забезпечити просте, але точне пояснення даних.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.