Чому методи Байєса не потребують декількох виправлень випробувань?


22

Ендрю Гелман написав обширну статтю про те, чому для тестування Байєса АБ не потрібна корекція багаторазових гіпотез: чому ми (як правило) не повинні турбуватися про багаторазові порівняння , 2012 рік.

Я не зовсім розумію: чому методи Байєса не вимагають багаторазових виправлень випробувань?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Я розумію, що баєсівський підхід, показаний вище, пояснює загальну основу розподілу за всіма гіпотезами (на відміну від частої корекції Бонферроні). Чи мої міркування правильні?



5
Хоча посилання Патріка дуже корисні, було б чудово побачити більш самодостатню відповідь, орієнтовану на «помірно статистично грамотного наукового рецензента».
домисли

Відповіді:


14

Один дивний спосіб відповісти на питання - зазначити, що байєсівський метод не дає можливості цього зробити, оскільки байєсівські методи узгоджуються з прийнятими правилами доказів, а частофілістські методи часто суперечать їм. Приклади:

  • За допомогою частотистської статистики порівняння лікування від А до Б повинно штрафувати за порівняння методів лікування C і D через помилки, пов'язані з помилками сімейного типу I; порівняно з Баєсіаном порівняння AB стоїть самостійно.
  • За послідовне періодичне тестування зазвичай вимагається штраф за багаторазовий перегляд даних. У груповій послідовній установці раннє порівняння для A проти B повинно бути покаране за наступне порівняння, яке ще не було зроблено, а пізнє порівняння має бути покаране за попереднє порівняння, навіть якщо попереднє порівняння не змінило хід дослідження.

Проблема випливає з частого повернення потоку часу та інформації, змушуючи часто відвідувачів враховувати, що могло статися замість того, що сталося . Навпаки, байєсівські оцінки привласнюють усі оцінки до попереднього розподілу, що калібрує докази. Наприклад, попередній розподіл різниці АВ калібрує всі майбутні оцінки АВ і не повинен враховувати CD.

При послідовному тестуванні виникає велика плутанина щодо того, як скорегувати оцінку балів, коли експеримент достроково припиняється за допомогою частого виводу. У байєсівському світі попереднє "відхилення" будь-яких точкових оцінок, а оновлений задній розподіл застосовується до висновку в будь-який час і не вимагає складних міркувань вибіркового простору.


4
Я не дуже розумію цей аргумент. Якщо ми проводимо 1000 різних порівнянь із звичайним частістським підходом, то, звичайно, слід очікувати приблизно 50 значущих з ефектом p <0,05 навіть під нульовим. Звідси виправлення. Якщо ми використовуємо баєсівську оцінку / тестування замість цього, маючи деякі попередні (близько 0?) Для всіх порівнянь, то так, пріоритет зменшить плакатів до нуля, але ми все одно матимемо випадкові зміни плакатів та / або коефіцієнтів Байєса і, ймовірно, матимемо деякі випадки з 1000, які виглядатимуть як "істотні" ефекти, навіть коли справжні ефекти абсолютно дорівнюють нулю.
Амеба каже, що поверніть Моніку

1
@amoeba - один із способів вважати, що Байєсіан враховує всі альтернативи - не лише "нульовий" проти "одну альтернативу". Зважаючи на всі альтернативні засоби, як правило, кожен має меншу попередню ймовірність - ефективно караючи висновок. Ви повинні врахувати всі поєднання істинного / хибного (якщо ви не знаєте попередніх знань про комбінації, які неможливі). Ви стурбовані тим, що щось піде не так у * лише одному випадку *. Що з іншими випадками? 2 1000 - 12100021000-1
ймовірністьлогічний

1
Вибачте, @probabilityislogic, я не впевнений, що зрозумів вашу думку. Досить справедливо щодо "всіх альтернатив", але що відбувається на практиці? Як я вже говорив, ми оцінюємо 1000 групових відмінностей (наприклад); у нас є групова різниця; ми отримуємо 1000 плакатів, 95% достовірних інтервалів чи будь-чого іншого. Тоді ми розглянемо кожен достовірний інтервал, щоб перевірити, чи достатньо далеко від нуля, щоб бути "значущим / істотним" ефектом. Якщо ми зробимо це 1000 разів, ми, швидше за все, матимемо «помилкові позитиви» в сенсі, що деякі ефекти виявляться великими, навіть якщо всі 1000 ефектів насправді рівні нулю. Ні?
амеба каже, що повернеться до Моніки

1
@amoeba - ваш аргумент залежить від незалежності інтервалів / відхилень. На практиці люди зазвичай не перевіряють велику кількість споріднених гіпотез. Звідси багаторівнева модель - зафіксувати загальні впливи. Це змусить ці достовірні інтервали рухатися разом (тобто вони матимуть корельовані розподіли вибірки). Це призведе до більше помилкових позитивних результатів, коли використовуються погані моделі, і менше, коли використовуються хороші моделі. Звичайно, добре чи погано полягає в тому, що в моделях є достатня кількість інформації. 1000
ймовірністьлогічний

1
@probabilityislogic: Ну, я абсолютно прихильник багаторівневих моделей, навіть якщо я не бачу їх обов'язково як байєсівський інструмент - змішані моделі та ANOVA з випадковими ефектами зазвичай використовуються поряд з t-тестами і подібними ...
Амеба каже: Поновіть Моніку

6

Цей тип ієрархічної моделі дійсно зменшує оцінку та зменшує кількість помилкових претензій до розумної міри для невеликої та помірної кількості гіпотез. Чи гарантує це певний рівень помилок типу I? Ні.

Ця конкретна пропозиція Гельмана (який визнає проблему з переглядом занадто багатьох різних речей, а потім занадто легко помилково роблячи висновок, що ви бачите щось для них - насправді одна з його тем для домашніх тварин у своєму блозі) відрізняється від крайньої альтернативи Точка зору, яка стверджує, що Байєсовим методам не потрібно враховувати кратність, адже все, що має значення, - це ваша вірогідність (і ваша попередня).


1
(+1) Наскільки мені відомо, я сподіваюся, що в декількох випадках (наприклад, нерозмірний із відповідним попереднім) висновок Байєса не дозволяє контролювати рівень помилок типу 1. Отже, виправлення декількох випробувань у байєсівській настройці не може вважатися IHMO як виправлення помилки типу 1.
peuhp


6

Дуже цікаве запитання, ось моє питання.

Вся справа в кодуванні інформації, а потім поверніть байєсівський кривошип. Це здається занадто гарним, щоб бути правдою - але обидва вони складніші, ніж здаються.

Я починаю з того, щоб задати питання

Яка інформація використовується, коли ми турбуємося про багаторазове порівняння?

Я можу придумати деякі - перше - "драгування даних" - тестуйте "все", поки ви не отримаєте достатньо пропусків / помилок (я б подумав, що майже кожна підготовлена ​​статистика буде піддана цій проблемі). У вас також є менш зловісна, але, по суті, те саме "У мене стільки тестів, щоб запустити - напевно, все не може бути правильним".

Задумавшись над цим, одне, що я помічаю, - це те, що ви не схильні чути багато про конкретні гіпотези чи конкретні порівняння. Вся справа в "колекції" - це викликає моє мислення до обмінності - гіпотеза, яка порівнюється, певним чином "схожа". І як ви кодуєте обмінність в байєсівському аналізі? - гіперприори, змішані моделі, випадкові ефекти тощо!

Але обмінність дає вам лише частину шляху. Чи все обмінне? Або у вас "розрідженість" - наприклад, лише кілька ненульових коефіцієнтів регресії з великим набором кандидатів. Тут не працюють змішані моделі та звичайно розподілені випадкові ефекти. Вони "застрягають" між шумом розсипання та залишаючи сигнали недоторканими (наприклад, у вашому прикладі залишайте рівними параметри locationB та locationC "істинними", а параметр locationA "true" встановлюйте довільно великим або малим, і спостерігайте за тим, як стандартна лінійна змішана модель виходить з ладу.) . Але це може бути виправлено - наприклад, з пріорами "шипа і плити" або "прінцерами".

Тож це насправді більше про те, щоб описати, про яку гіпотезу ви говорите, та отримати якомога більше відомих особливостей, відображених у попередньому та ймовірності. Підхід Ендрю Гельмана - це лише спосіб неявного поводження з широким класом численних порівнянь. Як і найменші квадрати і нормальні розподіли, як правило, працюють у більшості випадків (але не у всіх).

З точки зору того, як це робиться, ви можете подумати про людину, що розмірковує так: група А та група В можуть мати однакове значення - я переглянув дані, а засоби "близькі" - Отже, щоб отримати кращу оцінку для обох я повинен об'єднати дані, так як я вважав, що вони мають однакове значення. - Якщо вони не однакові, дані дають свідчення того, що вони "близькі", тому об'єднання "трохи" не зашкодить мені занадто сильно, якщо моя гіпотеза помилилася (а-ля всі моделі помиляються, деякі корисні)

Зауважте, що всі вищезазначені шарніри на початковій передумові "вони можуть бути однаковими". Забирайте це, і виправдання для об'єднання немає. Напевно, ви також можете побачити "нормальний розподіл" спосіб мислення про тести. "Найбільш вірогідний нуль", "якщо не нуль, то близький до нуля наступний, швидше за все", "крайні значення малоймовірні". Розглянемо цю альтернативу:

  • засоби групи А та групи В можуть бути рівними, але вони також можуть бути різко різними

Тоді аргумент про об'єднання "трохи" - дуже погана ідея. Вам краще вибрати загальний пул або нульовий пул. Набагато більше, як Коші, шип і плита, тип ситуації (велика маса навколо нуля, і маса маси для екстремальних значень)

Не потрібно займатися цілим численним порівнянням, оскільки байєсівський підхід включає інформацію, яка приводить нас до занепокоєння до попередньої та / або ймовірності . У певному сенсі це більше нагадування про те, щоб правильно подумати про те, яка інформація доступна для вас, і переконавшись, що ви включили її в свій аналіз.


2
л1досвід(-|х|)

@StasK - l1 працював би краще, але оскільки він є увігнутим, він би боровся з розрідженими ненулями. Ті, про які я згадував, усі - опуклі. Близьким варіантом до l1 є узагальнене подвійне парето - отримайте, взявши суміш параметру шкали лапласа (подібного до адаптивного ласо в мові мови)
ймовірністьлогічний

5

По-перше, як я розумію представлену вами модель, я думаю, що вона трохи відрізняється від пропозиції Гельмана, що більше виглядає так:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

На практиці, додаючи цей commonLocationпараметр, умовиводи щодо параметрів 3 розподілу (тут місця 1, 2 і 3) вже не залежать один від одного. Більше того, commonLocationтенденція до зменшення очікуваних значень параметрів спрямована до центрального (загалом оціненого). У певному сенсі це працює як регуляризація над усіма висновками, що робить необхідність корекції багаторазової корекції не потрібною (як на практиці ми виконуємо один єдиний багатофакторний облік оцінки від взаємодії кожного з них за допомогою моделі).

Як вказується в іншій відповіді, ця корекція не пропонує контролю над помилкою I типу, але в більшості випадків метод Байєса не пропонує такого контролю навіть на одній шкалі висновку, і корекція для багаторазового порівняння повинна бути по-різному розглянута в байєсівській налаштування.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.