Чим байєсівська рамка краще тлумачиться, коли ми зазвичай використовуємо неінформативні або суб'єктивні пріори?


18

Часто стверджується, що байєсівська рамка має велику перевагу в інтерпретації (над частотою), оскільки вона обчислює ймовірність параметра, заданого даними - замість як у частістські рамки. Все йде нормально.p ( x | θ )p(θ|x)p(x|θ)

Але, ціле рівняння засноване на:

p(θ|х)=p(х|θ).p(θ)p(х)

мені здається мало підозрілим з 2 причин:

  1. У багатьох роботах використовуються звичайно неінформативні пріори (рівномірні розподіли), а потім просто , тому байєси отримують такий самий результат, як отримують часто відвідувачі. інтерпретація, коли байєсийська задня частина та вірогідність вірогідностей є однаковими розподілами? Це просто дає той же результат.p(θ|х)=p(х|θ)

  2. Використовуючи інформативні пріори, ви отримуєте різні результати, але на байесіані впливає суб'єктивне попереднє, тому весь має і суб'єктивний відтінок.p(θ|х)

Іншими словами, весь аргумент в інтерпретації кращий, ніж будується на презумпції, що є своєрідним "реальним", чого, як правило, немає. це лише відправна точка, яку ми якось обираємо зробити так, щоб MCMC запустився, презумпція, але це не опис реальності (я думаю, це неможливо визначити).p ( x | θ ) p ( θ )p(θ|х)p(х|θ)p(θ)

Тож як ми можемо стверджувати, що байесіан краще тлумачити?


4
(1) зовнішній вигляд підозрює , тому що його висновок є невірним: байєсівську результати з неінформативними апріорними є НЕ обов'язково збігаються з висновками частотними. Насправді, у багатьох випадках , мабуть, немає згоди щодо того, що таке "неінформативний попередник"! (2) також є дискусійним, оскільки імпліцитно передбачає, що кожне припущення, зроблене в умовах частого аналізу, не є суб'єктивним - але це не так. Нарешті, що саме ви маєте на увазі під «кращою інтерпретацією»? Ваше питання неоднозначне без визначення цього.
whuber

1
На додаток до коментаря Ваубера, який я хотів би сказати, немає загальної причини, чому Байєс кращий за частофілістів , звідси аргумент. Іноді Байєс дає значущі результати, а іноді частіший спосіб - краще. Однак у застосованому полі не повинно бути причин, чому слід отримувати дуже різні результати. З філософської точки зору, Бейєс, безумовно, сильний, але, як ми всі знаємо, теорія та практика відрізняються, іноді різко. Також я трохи стурбований вашим першим абзацом. Мені здається, що ви відданий байєсів (в цьому немає нічого поганого.).
suncoolsu

Чи не повинно бути заголовка uninformative or *objective* priors? У subjectiveпріори точно інформативних пріори.
javadba

Відповіді:


15

Щоб дати більш вузьку відповідь, ніж відмінні, які вже були опубліковані, і зосередити увагу на перевазі інтерпретації - байєсівська інтерпретація, наприклад, "95% достовірного інтервалу", полягає в тому, що ймовірність того, що справжнє значення параметра лежить в межах інтервал дорівнює 95%. Одне з двох поширених інтерпретацій частотистів, наприклад, "95% довірчий інтервал", навіть якщо два чисельні тотожні, - це те, що в кінцевому рахунку ми повинні багато разів виконувати процедуру, частоту, з якою Інтервал охоплював би реальну величину, яка складе 95%. Перший - інтуїтивно зрозумілий, другий - ні. Спробуйте пояснити менеджеру деякий час, що ви не можете сказати "Ймовірність того, що наші сонячні батареї погіршаться менше ніж на 20% протягом 25 років, становить 95%", але натомість він повинен сказати "

Альтернативно-частою інтерпретацією було б "Перед тим, як дані були створені, був 5% шанс, що інтервал, який я обчислив, використовуючи процедуру, на яку я влаштувався, впаде повністю нижче справжнього значення параметра. Однак тепер, коли ми зібрали дані, ми не можемо робити жодного такого твердження, оскільки ми не суб'єктивісти і ймовірність дорівнює 0 або 1, залежно від того, чи дійсно це чи не лежить повністю нижче істинного значення параметра ". Це допоможе аудиторам і при розрахунку гарантійного резерву. (Я насправді вважаю це визначення розумним, хоч зазвичай і не корисним; його також зрозуміти непросто інтуїтивно, і особливо не, якщо ти не статистик.)

Жодна частолістська інтерпретація не є інтуїтивно зрозумілою. Байєсівська версія є. Звідси і "велика перевага в інтерпретації", яку має байєсівський підхід.


Моя проблема з аргументалістичним аргументом полягає в тому, що він намагається занадто багато описати процедуру як відповідь. Спробуйте той же експеримент для себе в інтерпретації, але щодо того, який висновок слід зробити на основі результатів. Як саме ви б по- різному діяли, чуючи результати, які давали частоліст і байєсів? Насправді ви все одно будете діяти так само, коли розумієте обоє. Не потрібно переходити на рівень процедури, щоб пояснити, що «найкраще - діяти так і так, виходячи з довіри, наданої даними».
PascalVKooten

Також, за визначенням, вам доведеться зробити більше пояснень у випадку байесів, оскільки у вас є не тільки "те, що нам дають дані", але і яка інформація містить попередню інформацію! Байєси, як правило, дають тривале частолістське пояснення, але вони не вникають у пояснення того, що раніше вони обрали, чому вони обрали пріоритет, а конкретно чому саме це.
PascalVKooten

Ну, я частково не погоджуюся з вашим останнім моментом. Як приклад, коли я робив аналіз надійності на дуже, дуже дорогих одиницях обладнання в попередній роботі, ми розглянули результати попереднього аналізу надійності як попередній для нашого нового, зменшеного у вазі з точки зору "еквівалентного розміру вибірки" до враховуйте нестаціонарність реального світу і невеликі зміни в дизайні і т. д. І, дійсно, байєсівська статистика полягає в тому, щоб оновити свої попередні дані; класична статистика не "оновлюється", тому ви отримуєте однакові результати лише тоді, коли ваш попередній показник рівний, за деякими винятками.
jbowman

Я б просто об'єднав набори даних і провів ще один аналіз ... не потрібно придумувати попереднього. Немає кращого попереднього, ніж фактичні попередні дані: ви отримуєте "справжню" задню частину даних.
PascalVKooten

Ну, можливо, ви не хочете точно попереднього заднього для вашого нового попереднього, в нашому випадку через постійні незначні зміни дизайну та наші знання про те, що mfg. процес теж розвивався, роблячи нашу попередню не 100% інформаційну інформацію для майбутніх даних. Також можуть бути міркування щодо часу виконання. Але, як ви думаєте, ваша думка загалом хороша.
jbowman

13

На мою думку, причина того, що байєсівська статистика «краща» для інтепретації, не має нічого спільного з пріорами, а пов’язана з визначенням ймовірності. Визначення Байєса (відносна правдоподібність істинності деяких пропозицій) більше відповідає нашому повсякденному використанню цього слова, ніж визначення частотизму (довгострокова частота, з якою щось відбувається). У більшості практичних ситуацій - це те, що ми насправді хочемо знати, а не , і складність виникає при частофілістській статистиці через тенденцію інтерпретувати результати в частофілістському обчисленні так, ніби були байєсівські, тобто , ніби цеp(θ|х)p(х|θ)p(х|θ)p(θ|х) (наприклад, помилка p-значення або інтерпретація довірчого інтервалу так, ніби це був достовірний інтервал).

Зауважте, що інформаційні пріори не обов'язково є суб'єктивними, наприклад, я б не вважав це суб'єктивним знанням стверджувати, що попередні знання про певну фізичну систему повинні бути незалежними від одиниць вимірювання (оскільки вони по суті є довільними), що веде до ідеї перетворення груп і "мінімально інформативні" пріори.

Зворотний бік ігнорування суб'єктивних знань полягає в тому, що ваша система може бути недостатньо оптимальною, оскільки ви ігноруєте експертні знання, тому суб'єктивність не обов'язково є поганою справою. Наприклад, у звичайній проблемі "підсумки монети", яка часто використовується як мотивуючий приклад, ви дізнаєтесь відносно повільно з рівномірним попереднім рівнем надходження даних. Але чи всі розміри упереджень однаковою мірою є розумним припущенням? Ні, легко зробити злегка упереджену монету або ту, яка є абсолютно упередженою (дві голови або два талі), тому якщо ми вбудуємо це припущення в наш аналіз, за ​​допомогою суб'єктивного попереднього, нам буде потрібно менше даних, щоб визначити, що насправді упередженість є.

Часті аналізи також містять суб'єктивні елементи (наприклад, рішення про відхилення нульової гіпотези, якщо значення р менше 0,05, немає логічного примусу до цього, це лише традиція, яка виявилася корисною). Перевага байєсівського підходу полягає в тому, що в обчисленні суб'єктивність робиться явною, а не залишається неявною.

Зрештою, справа в "конях на курси", ви повинні мати обидва набори інструментів у вашій скриньці інструментів, і бути готовим використовувати найкращий інструмент для завдання.

Сказавши який, байєсийський частіст !!! ; oP


6

Байєсівські рамки мають велику перевагу перед частофілістськими, оскільки це не залежить від наявності "кришталевої кульки" з точки зору знання правильних припущень щодо розподілу. Байєсівські методи залежать від використання інформації, яку ви маєте, і знання того, як кодувати цю інформацію в розподілі ймовірностей.

Використання байєсівських методів - це в основному використання теорії ймовірностей в повній мірі. Теорема Байєса - це не що інше, як перерахунок класичного правила продукту теорії ймовірностей:

p(θх|Я)=p(θ|Я)p(х|θЯ)=p(х|Я)p(θ|хЯ)

До тих пір, поки (тобто попередня інформація не говорила про те, що спостерігалося було неможливо), ми можемо розділити їх і дійти до теорії байеса. Я використовував для позначення апріорної інформації, яка завжди присутня - ви не можете призначити розподіл ймовірності без інформації.p(х|Я)0Я

Тепер, якщо ви вважаєте, що теорема Байєса підозріла, то, логічно, ви також повинні подумати, що правило про продукт теж є підозрілим. Ви можете знайти дедуктивний аргумент тут , який виводить твір і суму правило, аналогічну теорему Кокси. Більш чіткий перелік необхідних припущень можна знайти тут .

Наскільки мені відомо, частота виводки не ґрунтується на наборі підвалин у логічних рамках. Оскільки він використовує аксіоми ймовірності Колмогорова, схоже, немає ніякої зв'язку між теорією ймовірності та статистичним висновком. Не існує жодної аксіоми для частого виведення, що призводить до процедури, яку слід дотримуватися. Існують принципи та методи (максимальна ймовірність, довірчі інтервали, p-значення тощо), і вони працюють добре, але вони, як правило, ізольовані та спеціалізовані для певних проблем. Я вважаю, що частолістські методи найкраще залишаються розпливчастими у своїх основах, принаймні, з точки зору суворої логічної бази.

Для пункту отримання того ж результату дещо не має значення з точки зору тлумачення. Дві процедури можуть призвести до однакового результату, але це не означає, що вони є рівнозначними. Якби я просто здогадувався , а випадково здогадувався про максимальну оцінку ймовірності (MLE), це не означає, що моє здогадування так само добре, як і MLE.1θ

Для пункту , чому ви повинні турбуватися, що люди з різною інформацією прийдуть до різних висновків? Хтось із доктором математики мав би і повинен робити різні висновки для когось із математики вищої школи. Вони мають різну кількість інформації - чому б ми очікували, що вони погодиться? Коли вам подають інформацію, яка знає, ви схильні передумати. Скільки залежить від того, що це за інформація. Теорема Байєса містить цю особливість як слід.2

Використання рівномірного попереднього часто є зручним наближенням, коли ймовірність різка порівняно з попередньою. Іноді не варто докладати зусиль, щоб пройти і правильно налаштувати пріоритет. Так само не робіть помилки, плутаючи байєсівську статистику з MCMC. MCMC - це лише алгоритм інтеграції, такий же, як гуасовий квадратур, і в аналогічному класі наближення Лапласа. Це трохи корисніше, ніж квадратура, тому що ви можете повторно використовувати вихід алгоритму, щоб виконати всі ваші інтеграли (задні засоби та відхилення є інтегралами), і трохи більш загальним, ніж Лаплас, тому що вам не потрібен великий зразок, або добре заокруглена вершина в задній частині (хоча Лаплас швидше).


3

Я, як правило, бачив уніфікований раніше застосовуваний або в "привчальних" прикладах типу, або у випадках, коли справді нічого не відомо про конкретний гіперпараметр. Як правило, я бачу неінформовані пріорі, які надають мало інформації про те, яким буде рішення, але які математично кодують те, як виглядає добре рішення. Наприклад, типово бачить гауссовий пріоритет (мк=0) розміщений над коефіцієнтом регресії, що кодує знання про те, що всі речі рівні, ми віддаємо перевагу рішенням, у яких коефіцієнти мають менші величини. Це полягає у тому, щоб уникнути перевиконання набору даних шляхом пошуку рішень, які максимізують цільову функцію, але не мають сенсу в конкретному контексті нашої проблеми. У певному сенсі вони надають спосіб надати статистичній моделі певні «підказки» щодо певної галузі.

Однак це, на мій погляд, не найважливіший аспект байєсівських методологій. Баєсові методи генеративні, оскільки вони дають повну "історію" про те, як дані з'явилися на світ. Таким чином, вони не просто шукачі шаблонів, а скоріше вони здатні врахувати всю реальність ситуації, що склалася. Наприклад, розглянемо LDA (латентне розподілення Діріхле), яке дає повну генеративну історію про те, як складається текстовий документ, що має щось подібне:

  1. Виберіть деяку суміш тем, виходячи з вірогідності того, що певні теми будуть спільно виникати; і
  2. Виберіть деякий набір слів із словникового запасу, що базується на вибраних темах.

Таким чином, модель підходить на основі дуже конкретного розуміння об'єктів у домені (тут, текстові документи) та способів їх створення; тому інформація, яку ми отримуємо, пристосована безпосередньо до нашої проблемної області (ймовірність слів, заданих тем, ймовірність того, що теми будуть згадані разом, ймовірність документів, що містять теми, в якій мірі тощо). Той факт, що для цього потрібно теорему Байєса, є майже другорядним, звідси і маленький жарт: "Байєс не був би баєсом, а Христос не був би християнином".

Коротше кажучи, байєсівські моделі - це суворе моделювання доменних об'єктів з використанням розподілу ймовірностей; отже, ми можемо кодувати знання, які інакше не були б доступні простою дискримінаційною технікою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.