Як Баєсівська статистика поводиться з відсутністю пріорів?


16

Це питання було натхнене двома останніми взаємодіями, які я мав, одна тут у резюме , а інша на економ.се.

Там, я відправив відповідь на відомий «Конверт парадоксу» (зауважте, не як на «правильну відповідь» , але в якості відповіді , що випливають з конкретних припущень про структуру ситуації). Через деякий час користувач опублікував критичний коментар, і я взяв участь у розмові, намагаючись зрозуміти його суть. Було очевидно, що він думає байєсівським способом, і продовжував говорити про пріорів, - і тоді це на мені осяялося, і я сказав собі: "Почекай хвилинку, хто що-небудь сказав про будь-яке попереднє? Як я сформулював Проблема, тут немає пріорів, вони просто не вводяться в картинку, і не потрібно ".

Нещодавно я побачив цю відповідь у CV, про значення незалежності статистики. Я прокоментував автору, що його речення

"... якщо події є статистично незалежними, тоді (за визначенням) ми не можемо дізнатися про одне від спостереження за іншим."

явно помилявся. В обміні коментарями він продовжував повертатися до питання (його слів)

"Чи не означатиме" навчання "зміна наших переконань про річ, засновану на спостереженні за іншим? Якщо це так, чи не перешкоджає незалежність (остаточно) це?

Знову було очевидно, що він думає байєсівським шляхом і вважає само собою зрозумілим, що ми починаємо з певних переконань (тобто попередніх) , і тоді питання полягає в тому, як ми можемо їх змінити / оновити. Але як створюється перша-перша віра?

Оскільки наука повинна відповідати дійсності, зауважу, що існують ситуації, коли у людей, що беруть участь, немає пріорів (я, по-перше, весь час заходжу в ситуації без будь-яких попередніх завдань - і, будь ласка, не заперечуйте, що в мене є пріори, але я просто не усвідомлюйте цього, давайте помилуємося тут на фальшивому психоаналізі).

Оскільки я випадково почув термін "неінформативні пріори", я розбиваю своє запитання на дві частини, і я майже впевнений, що користувачі тут, які знають байєсівську теорію, точно знають, про що я хочу запитати:

Q1: Чи відсутність попереднього еквівалента (у суворому теоретичному сенсі) такому, що має неінформативний поперед?

Якщо відповідь на Q1 - "Так" (з деякою детальнішою запиткою), то це означає, що байєсівський підхід застосовується універсально і з самого початку , оскільки в будь-якому випадку людина, що займається людиною, заявляє "у мене немає пріорів", ми можемо доповнити його місце є попереднім, що є неінформативним для даної справи.

Але якщо відповідь на Q1 - «Ні», то Q2 випливає:

Q2: Якщо відповідь на Q1 - "Ні", чи означає це, що у випадках, коли немає пріорів, байєсівський підхід не застосовується з самого початку, і ми повинні спершу сформувати пріоритет яким-небудь байєсівським способом, щоб ми могли згодом застосувати байєсівський підхід?


2
Зауважу, що як вчений "без попередніх переконань" - це досить екстремістське твердження ... схоже на те, щоб бачити лише статичний "сніг" старого аналогового телевізора, налаштованого на мертву станцію, і чути лише білий шум. Вчені вчені не вірять, що ніщо у світі не стосується і не несе інформації про що-небудь ... якби ми вірили, що ми не були б вченими. Звичайно, байєсівська артикуляція "неінформативної" несе в собі дуже загальні уявлення про можливість та ймовірність.
Олексій

2
@ Алексис Залежить від ситуації. Наприклад, у «Парадоксі конвертів» питання полягає в тому, що після перегляду суми, яку містить один конверт, я мав попереднє переконання щодо того, чи я дивлюсь - «велика» сума чи «мала» сума. І я не бачу нічого крайнього в тому, щоб заявити тут "я не маю попередньої думки з цього питання".
Алекос Пападопулос

1
Чи попередньо ви вважаєте, що є якісь суми і що вони мають певний розподіл між конвертами? (Навіть якщо ви агресивні щодо конкретного розподілу чи його параметризації?)
Alexis

1
@ Алексіс Впевнений, але він формулюється як структурне знання, яке існує незалежно від подальшої інформації. Це не віра, яка потребує оновлення. І оскільки ця формулювання відображає сприйняття хоча б одного члена людського роду (я), це ситуація в реальному світі, і питання полягає в тому, чи вважається він придатним до байєсівського аналізу чи ні. Звичайно, для іншої людини, яка заявляє, що "я маю таку попередню думку про розподіл сум між конвертами", застосовність байєсівського підходу очевидна.
Алекос Пападопулос

2
Ви, здається, вірите, що або немає НЕ попереднього, або є ПІР. У байєсівському моделюванні, як я це бачу, задній аналіз є умовним або відносним до вибору A до, і я не використовую цей попередній як абсолютний. Моє попереднє - це природний спосіб введення структури ймовірностей та вимірювання на просторі параметрів.
Сіань

Відповіді:


11

Q1: Чи відсутність попереднього еквівалента (у суворому теоретичному сенсі) такому, що має неінформативний поперед?

Ні.

По-перше, не існує математичного визначення для "неінформативного попереднього". Це слово використовується неформально лише для опису деяких пріорів.

Наприклад, пріоритет Джефрі часто називають "неінформативним". Це попереднє узагальнення рівномірного попереднього для інваріантних проблем перекладу. Попереднє Джеффрі якось пристосовується до (теоретичної інформації) риманової геометрії моделі і, таким чином, не залежить від параметризації, лише залежно від геометрії колектора (у просторі розподілів), що є моделлю. Це може сприйматися як канонічне, але це лише вибір. Це просто рівномірна форма за римановою структурою. Не абсурдно визначати "неінформативний = рівномірний" як спрощення питання. Це стосується багатьох випадків і допомагає задати чітке і просте запитання.

Виконання байєсівського висновку без попереднього виглядає як "як я можу здогадатися, що без будь-якого припущення про розподіл X лише знаючи, що X має значення в [ 0 ; 1 ] ?" Це питання, очевидно, не має сенсу. Якщо ви відповідаєте 0,5, ви, мабуть, маєте на увазі розподіл.Е(Х)ХХ[0;1]

Байєсівський і частолістський підходи просто відповідають на різні запитання. Наприклад, про оцінювачі, які, можливо, найпростіші:

  • Частота (наприклад): "Як я можу оцінити таким чином, що моя відповідь має найменшу помилку (лише в середньому за х ) у гіршому випадку (понад θ )?". Це призводить до оцінки мінімаксних оцінок.θхθ

  • Байєсян: "Як я можу оцінити таким, що моя відповідь має найменшу помилку в середньому (понад θ )?". Це призводить до оцінки Байєса. Але питання є неповним і має вказати "середній у якому сенсі?". Таким чином, питання є повним лише тоді, коли воно містить попереднє.θθ

Так чи інакше, частофіліст має на меті найгірший випадок контролю і не потребує попереднього. Байєсійський прагне до середнього контролю і вимагає попереднього сказати "середній у якому сенсі?".

Q2: Якщо відповідь на Q1 - "Ні", чи означає це, що у випадках, коли немає пріорів, байєсівський підхід не застосовується з самого початку, і ми повинні спершу сформувати пріоритет яким-небудь байєсівським способом, щоб ми могли згодом застосувати байєсівський підхід?

Так.

ХN(мк,1)мк

Справжні проблеми з попередньою специфікацією трапляються на більш складні проблеми, на мою думку. Тут важливо зрозуміти, що говорить певний попередник.


2
(+1) Дякую, це справді інформативно.
Алекос Пападопулос

4

Перш за все, байєсівський підхід часто використовується, оскільки ви хочете включити попередні знання у свою модель, щоб збагатити їх. Якщо ви не маєте жодних попередніх знань, тоді ви дотримуєтесь так званих "неінформативних" або тижневих інформативних пріорів. Зауважте, що попереднє рівномірне визначення не є "неінформативним" за визначенням, оскільки припущення про рівномірність є припущенням. Не існує такого поняття, як справді неінформативний поперед. Є випадки, коли "це може бути що завгодно" є розумним "неінформативним" попереднім припущенням, але є також випадки, коли твердження, що "всі цінності однаково ймовірні", є дуже сильним і необгрунтованим припущенням. Наприклад, якщо ви припускаєте, що мій зріст може бути будь-яким від 0 сантиметрів до 3 метрів, причому всі значення є однаково ймовірними апріорі, це не було б розумним припущенням, і це дало б занадто велику вагу екстремальним значенням, щоб це могло спотворити вашу задню частину.

З іншого боку, Байезіан стверджує, що насправді не існує ситуацій, коли б у вас немає попередніх знань чи переконань. Ви завжди можете щось припустити і, як людина, ви це робите постійно (психологи та поведінкові економісти проводили багато досліджень на цю тему). Вся суєта баєсів з пріорами полягає у кількісному оцінці цих попередніх уявлень та викладенні їх явно у вашій моделі, оскільки байєсівський висновок стосується оновлення ваших переконань .

Легко придумати аргументи "без попередніх припущень" або єдині пріори для абстрактних проблем, але для проблем у реальному житті ви мали б попередні знання. Якщо вам потрібно було зробити ставку на суму грошей у конверті, ви знаєте, що сума повинна бути негативною та кінцевою. Ви також могли б навчитись здогадуватися про верхню межу можливої ​​суми грошей, враховуючи свої знання про правила змагань, наявні кошти для вашого супротивника, знання про фізичний розмір конверта та суму грошей, які можуть фізично відповідати в ньому і т. д. Ви також можете здогадатися про суму грошей, яку ваш противник міг би готовий покласти в конверт і, можливо, втратити. Є багато речей, які ви б знали як основу для свого попереднього.


2
@AlecosPapadopoulos вибачте за те, що не сказав, що хотів почути, але я вважаю, що це частина відповіді на ваше запитання. Що стосується Q1, то, очевидно, припущення однакового попереднього не є таким же, як і не припущення до попереднього, оскільки ви зробили припущення. Якщо ви взагалі не хочете використовувати пріори, використовуйте максимальну вірогідність або емпіричний підхід Байєса.
Тім

2
Що я "хотів почути"? Як я розумію, коли людина ставить тут запитання, справедливо можна очікувати, що відповідь буде про це питання. Нічого конкретного я не хотів почути (тут також немає пріорів), я просто шукав відповіді на конкретні запитання, і мій коментар був про те, щоб не бачити, яким чином ваша відповідь стосується моїх питань. Але у вашому коментарі я думаю, що є щось дійсно актуальне: "Емпіричний підхід Байєса"? Ви можете згадати / вказати на якусь літературу?
Алекос Пападопулос

3
@AlecosPapadopoulos емпіричний Байєс вибирає своїх пріорів на основі даних (тобто обману). Ви можете почати з Вікіпедії або з робіт Ефрона (легко переглядається на Google вченого).
Тім

2
Припустимо, ви почали проблему в понеділок і мали попередній, скажімо, стандартний. Отже, ви підключаєте їх до своїх даних, запускаєте аналіз, щось дізнаєтесь. У вівторок ви вже не можете цим користуватися, тому що ви щось вже навчилися. Отже, вам доведеться підключити інший поперед, насправді. Так, у строгих байезійських апріорах є одноразове використання. Ви буквально можете запускати їх через програмне забезпечення тільки НАДЕЖ. Щойно ви отримуєте результати, термін дії закінчується, якщо ви нічого не навчились. Тож у практичному сенсі баєсівський підхід у чистому вигляді непридатний, всі баєси постійно обманюють себе
Аксакал

3
@Aksakal Але чому його невірно використовувати у вівторок, як мій новий попередній, задній я отримав у понеділок? Як я це кажу, це цілком дійсна послідовна процедура. Тож я не розумію, чому ви пишете "Байєси постійно себе обманюють".
Алекос Пападопулос

3

питання 1 Я думаю, що відповідь, мабуть, ні. Моя причина полягає в тому, що ми насправді не маємо визначення "неінформативні", за винятком того, щоб якось виміряти, наскільки кінцева відповідь є від якоїсь довільно інформативної моделі / ймовірності. Багато неінформативних пріорів підтверджені на прикладі "інтуїтивних" прикладів, коли ми вже маємо на увазі "модель / ймовірність" та "відповідь". Потім ми просимо неінформативу до того, щоб дати нам відповідь, яку ми хочемо.

Моя проблема в цьому полягає в тому, що я борюся з переконанням, що хтось може мати дійсно хорошу, добре обізнану модель або структуру моделі для свого населення, і одночасно не мати "інформації" про ймовірні та малоймовірні значення параметрів для цієї моделі. Наприклад, використовуючи логістичну регресію, див. "МАЛКО ІНФОРМАЦІЙНИЙ ПРОМИСЛОВИЙ ПЕРШИЙ РОЗПОДІЛ. ДЛЯ ЛОГІСТИЧНИХ ТА ІНШИХ РЕГРЕСІЙНИХ МОДЕЛІВ"

Я думаю, що дискретний рівномірний пріоритет - єдиний, про який можна було б сказати, пріоритет "перший-перший". Але ви стикаєтеся з проблемами його використання, думаючи, що у вас немає "інформації", а потім раптом виникають реакції на "неінтуїтивні" відповіді (підказка: якщо вам не подобається байєсівська відповідь - можливо, ви залишили інформацію поза попередньою або ймовірність!). Ще одна проблема, з якою ви стикаєтесь, - це отримати дискретизацію для вашої проблеми. І навіть думаючи про це, вам потрібно знати кількість дискретних значень, щоб застосувати дискретний рівномірний попередньо.

Ще одна властивість, яку слід враховувати для вашого попереднього, - це "поведінка хвоста" щодо ймовірності, яку ви використовуєте.

на питання 2

Концептуально я не бачу нічого поганого в тому, щоб вказати розподіл без використання попереднього або ймовірного. Ви можете створити проблему, сказавши "мій pdf - це ... і я хочу обчислити ... wrt цей pdf". Тоді ви створюєте обмеження для попереднього, попереднього прогнозування та ймовірності. Байєсівський метод призначений для того, коли у вас є попередня та ймовірність, і ви хочете об'єднати їх у задній розподіл.

Напевно, варто зрозуміти, які є ваші ймовірності. Тоді аргумент переходить на "чи цей pdf / pmf являє собою те, що я, на його думку, представляє?" - Я думаю, в якому просторі ти хочеш опинитися. З вашого прикладу, ви говорите, що єдиний дистрибутив відображає всю наявну інформацію - "попереднього" немає, тому що він уже міститься (неявно) у розпорядженні, який ви використовуєте.

U(0,1)Бiн(н,p)Бета(0,0)21

на так званий відверто неправильний коментар

Якщо чесно, мені було б дуже цікаво побачити, як будь-який число спостережень можна використовувати для прогнозування "статистично незалежного" спостереження. Як приклад, якщо я вам скажу, я генерую 100 стандартних звичайних змінних. Я даю вам 99, а ви змусили вас дати мені найкращий прогноз на 100-те. Я кажу, що ви не можете зробити кращого прогнозу для 100-го, ніж 0. Але це те саме, що ви прогнозували б для 100-го, якби я не дав вам даних. Отже, ви нічого не дізнаєтесь з 99 точок даних.

Однак, якщо я скажу вам, що це був "якийсь нормальний розподіл", ви можете використовувати 99 точок даних для оцінки параметрів. Тоді дані вже не є "статистично незалежними", оскільки ми дізнаємося більше про загальну структуру, коли спостерігаємо більше даних. Зараз ваш найкращий прогноз використовує всі 99 точок даних


1
(+1) Дякую за продуману відповідь. Роз’яснення щодо «явно неправильного» твердження: воно було зроблене тому, що «навчання» (і я говорю про загальне значення слова) є набагато ширшим поняттям, ніж «передбачення». Якщо дві події структурно схожі, ми можемо дізнатися речі, пов’язані з одним, вивчаючи іншу, навіть якщо вони можуть бути статистично незалежними. Ви також говорите про "загальну структуру" у своїй відповіді, це все, що там є.
Алекос Пападопулос

@Alecos Papadopoulos - справа в тому, що ти не можеш навчитися, не зробивши речі статистично залежними. Беручи мій приклад, що можна вивчити в сценарії 1? Крім того, загальна структура повинна бути невідомою, а не просто наявною.
ймовірністьлогічний

1
Коментуючи останнє речення вашого допису, той факт, що ми можемо дізнатися щось про загальну структуру, як ви вказуєте, не робить випадкових змінних "статистично залежними". Вони залишаються "незалежними за вірогідністю", що є ще одним способом сказати "статистично незалежним", поняттям, яке має дуже точне значення математично. Те, що вони мають загальні характеристики (тут їх діапазон характеризується однаковим розподілом ймовірностей), не робить їх статистично залежними.
Алекос Пападопулос

Ваші фрази "незалежні за ймовірністю" мені не зрозумілі, і я підозрюю, що саме тому я не згоден з тим, що ви говорите. Якщо це замінено на "умовно незалежне" або "обмінне", то те, що ви говорите, має сенс. Я також ще чекаю чогось, що можна було б дізнатись із 99 стандартних звичайних оборотів, що допомагає зі 100-м (не потрібно говорити про прогнозування).
ймовірністьлогічний

1
@probabilisticlogic "Незалежний у ймовірності" - це вираз, який зазвичай можна знайти в старих роботах, і означає, що означає статистична незалежність, виражена через функції розподілу. 99 об / хв дозволить мені вивчити всілякі властивості, характеристики тощо 100-х, моменти, квантили, ви це назвете.
Алекос Пападопулос

3

Це лише коротке зауваження як доповнення до інших відмінних відповідей. Часто, або принаймні іноді, є дещо довільним (або звичайним), яку частину інформації, що надходить у статистичний аналіз, називають даними, а яку частину називають попередньою . Або, загалом, можна сказати, що інформація в статистичному аналізі надходить з трьох джерел: моделі , даних та попереднього . У деяких випадках, таких як лінійні моделі або glm, поділ є досить чітким, принаймні умовно.

Я повторно використаю приклад з оцінки максимальної ймовірності (MLE) в просторічному плані, щоб проілюструвати свою думку. Скажімо, пацієнт заходить до кабінету лікаря з деякими медичними проблемами, які виявляються важко діагностувати. Цей лікар раніше не бачив чогось подібного. Тоді, розмовляючи з пацієнтом, він виявляє нову інформацію: цей пацієнт відвідував тропічну Африку зовсім недавно. Тоді лікареві здається, що це може бути малярія чи якесь інше тропічне захворювання. Але зауважте, що ця інформація явно є для нас даними, але принаймні у багатьох статистичних моделях, які можуть бути використані, він буде вводити аналіз у вигляді попереднього розподілу, попереднього розподілу, що дає більш високу ймовірність деяких тропічних захворювань. Але, можливо, ми могли б зробити якусь (більшу), більш повну модель, де ця інформація вводиться як дані. Так, принаймні частково, дані розрізнення / попередні є звичайними.

Ми звикли і приймаємо цю умову через наш акцент на деяких класах звичайних моделей. Але у більшій схемі речей поза світом стилізованих статистичних моделей ситуація менш чітка.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.