Мабуть, фактор Байєса якось використовує ймовірності, які представляють вірогідність кожної моделі, інтегрованої у цілому просторі параметрів (тобто, не тільки в MLE). Як ця інтеграція фактично досягається? Чи справді просто намагаються обчислити ймовірність на кожному з тисяч (мільйонів?) Випадкових вибірок з простору параметрів, чи існують аналітичні методи інтеграції ймовірності через простір параметрів?
По-перше, будь-яка ситуація, коли ви вважаєте такий термін, як для даних і модель , вважається моделлю ймовірності . Це часто хліб і масло будь-якого статистичного аналізу, часто-чи байєсівського, і саме ця частина, яку повинен запропонувати ваш аналіз, є або гарною, або поганою. Тож фактори Байєса не роблять нічого принципово іншого, ніж коефіцієнти ймовірності.P(D|M)DM
Важливо поставити фактори Байєса в правильному налаштуванні. Якщо у вас є дві моделі, скажімо, і ви перетворюєте з ймовірностей в коефіцієнти, тоді фактори Байєса діють як оператор за попередніми переконаннями:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
Справжня різниця полягає в тому, що коефіцієнти ймовірності обчислюються дешевше і їх, як правило, концептуально простіше визначити. Ймовірність у MLE - це лише бальна оцінка чисельника та знаменника коефіцієнта Байєса відповідно. Як і у більшості частістських споруд, це може розглядатися як особливий випадок байєсівського аналізу з надуманим попереднім, що важко отримати. Але в основному це виникло тому, що це аналітично простежується і простіше обчислити (в епоху до того, як виникли приблизні байєсівські обчислювальні підходи).
Якщо говорити про обчислення, так: ви оціните різні інтеграли ймовірності в байєсівській обстановці за допомогою широкомасштабної процедури Монте-Карло практично у будь-якому випадку, що представляє практичний інтерес. Є деякі спеціалізовані тренажери, такі як GHK, які працюють, якщо ви припускаєте певні розподіли, і якщо ви робите ці припущення, іноді ви можете знайти аналітично простежувані проблеми, для яких існують повністю аналітичні фактори Байєса.
Але їх ніхто не використовує; немає підстав для цього. З оптимізованими пробовідбірниками Metropolis / Gibbs та іншими методами MCMC цілком простежено підходити до цих проблем повністю керованим даними способом та обчислювати ваші інтеграли чисельно. Насправді, часто це робиться ієрархічно та надалі інтегруватиме результати за метаприорами, що стосуються механізмів збору даних, неігнорованих експериментальних конструкцій тощо.
Для більшої інформації про це я рекомендую книгу Байєсівський аналіз даних . Хоча автор, Ендрю Гелман, здається, не надто піклується про фактори Байєса . Як осторонь я згоден з Гельманом. Якщо ви збираєтеся їхати Байесіаном, то експлуатуйте повну задню частину. Вибір моделі методами Байєса - це як перешкода їх вибору, оскільки вибір моделей є слабкою і здебільшого марною формою висновку. Я скоріше знаю розподіл за вибором моделі, якщо я можу ... хто переймається його квантуванням до "моделі A краще, ніж типу B" таких висловлювань, коли не потрібно?
Крім того, під час обчислення коефіцієнта Байєса застосовується корекція складності (автоматично за допомогою перехресної перевірки оцінки ймовірності чи аналітично через AIC), як це стосується коефіцієнта ймовірності?
Це одна з приємних речей про байєсівські методи. Фактори Байєса автоматично враховують складність моделі в технічному розумінні. Ви можете встановити простий сценарій з двома моделями, і з припущеними складностями моделі і відповідно, з і розміром вибірки .M1M2d1d2d1<d2N
Тоді, якщо - коефіцієнт Байєса з в чисельнику, при припущенні, що є істинним, можна довести, що як , підходить зі швидкістю, яка залежить від різниці в складності моделі, і що фактор Байєса сприяє більш простої моделі. Більш конкретно, ви можете показати, що згідно з усіма наведеними вище припущеннями,B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Мені знайоме це виведення та дискусія з книги " Кінцева суміш і марковські моделі перемикання " Сільвії Фрюхвірт-Шнаттер, але, ймовірно, є більш прямі статистичні дані, які більше заглиблюються в гносеологію, що лежить в основі її.
Я не знаю деталей досить добре, щоб надати їх тут, але я вважаю, що між цим та виведенням AIC є деякі досить глибокі теоретичні зв’язки. Книга Теорії інформації Обкладинки та Томаса натякнула на це принаймні.
Також, які філософські відмінності між коефіцієнтом ймовірності та фактором Байєса (я не запитую про філософські відмінності між коефіцієнтом ймовірності та методами Байєса загалом, але фактор Байєса як репрезентації об'єктивних доказів конкретно). Як можна було б охарактеризувати значення фактора Байєса порівняно з коефіцієнтом ймовірності?
Розділ статті Вікіпедії на тему "Інтерпретація" добре справляється з цим обговоренням (особливо діаграмою, що показує масштабність доказів Джеффріса).
Як і зазвичай, філософських речей не так вже й багато, ніж основні відмінності між байєсівськими методами та частофілістськими методами (які вам здаються вже знайомими).
Головне, щоб коефіцієнт вірогідності не був узгодженим у книжковому сенсі Голландії. Ви можете скласти сценарії, коли висновок вибору моделі з коефіцієнтів ймовірності призведе до того, що ви приймете програшні ставки. Байєсівський метод є когерентним, але діє на попередньому рівні, який може бути вкрай поганим і його слід вибирати суб'єктивно. Компроміси .. компроміси ...
FWIW, я думаю, що такий вибір сильно параметризованих моделей не є дуже хорошим висновком. Я віддаю перевагу байєсівським методам, і я вважаю за краще організувати їх більш ієрархічно, і я хочу, щоб висновок був зосереджений на повному задньому розподілі, якщо це взагалі обчислювально можливо. Я думаю, що фактори Байєса мають деякі акуратні математичні властивості, але як сам баєс, я не вражений ними. Вони приховують дійсно корисну частину байєсівського аналізу, який полягає в тому, що він змушує вас мати справу зі своїми пріорами на відкритому повітрі, а не підмітати їх під килим, і дозволяє робити висновки на повних плакатів.