Яке байєсівське обґрунтування привілейованих аналізів, проведених раніше, ніж інші аналізи?


26

Передумови та емпіричний приклад

У мене два дослідження; Я провів експеримент (дослідження 1), а потім повторив його (дослідження 2). У дослідженні 1 я виявив взаємодію між двома змінними; У дослідженні 2 ця взаємодія була в тому ж напрямку, але не суттєвою. Ось підсумок моделі дослідження 1:

Coefficients:
                        Estimate Std. Error t value Pr(>|t|)    
(Intercept)              5.75882    0.26368  21.840  < 2e-16 ***
condSuppression         -1.69598    0.34549  -4.909 1.94e-06 ***
prej                    -0.01981    0.08474  -0.234  0.81542    
condSuppression:prej     0.36342    0.11513   3.157  0.00185 ** 

І модель Study 2:

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           5.24493    0.24459  21.444   <2e-16 ***
prej                  0.13817    0.07984   1.731   0.0851 .  
condSuppression      -0.59510    0.34168  -1.742   0.0831 .  
prej:condSuppression  0.13588    0.11889   1.143   0.2545  

Замість того, щоб сказати: "Я думаю, у мене нічого немає, тому що я" не зміг повторити "," я зробив поєднання двох наборів даних, створив фіктивну змінну для того, з чого вивчені дані, і потім запустив взаємодію знову після контролю за фіксованою змінною. Ця взаємодія була важливою навіть після контролю за нею, і я виявив, що ця двостороння взаємодія між умовою та не подобається / поперед не кваліфікується тристоронній взаємодією із змінною фіктивного дослідження.

Представляємо байєсівський аналіз

У мене хтось припустив, що це чудова можливість використовувати байєсівський аналіз: У дослідженні 2 у мене є інформація з дослідження 1, яку я можу використовувати як попередню інформацію! Таким чином, у дослідженні 2 робиться байесівське оновлення від частотистських, звичайних найменших квадратів, результатів у дослідженні 1. Отже, я повертаюсь назад і знову аналізую модель дослідження 2, використовуючи зараз інформативні пріори щодо коефіцієнтів: усі коефіцієнти мали нормальний раніше, коли середнє значення було оцінкою у дослідженні 1, а стандартне відхилення було стандартною помилкою у дослідженні 1.

Це підсумок результату:

Estimates:
                       mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)             5.63    0.17    5.30    5.52    5.63    5.74    5.96
condSuppression        -1.20    0.20   -1.60   -1.34   -1.21   -1.07   -0.80
prej                    0.02    0.05   -0.08   -0.01    0.02    0.05    0.11
condSuppression:prej    0.34    0.06    0.21    0.30    0.34    0.38    0.46
sigma                   1.14    0.06    1.03    1.10    1.13    1.17    1.26
mean_PPD                5.49    0.11    5.27    5.41    5.49    5.56    5.72
log-posterior        -316.40    1.63 -320.25 -317.25 -316.03 -315.23 -314.29

Схоже, зараз у нас є досить вагомі докази взаємодії з аналізу «2 дослідження». Це погоджується з тим, що я зробив, коли я просто склав дані один на одного і запустив модель з номером дослідження як фіктивну змінну.

Контрфактичний: Що робити, якщо я спершу пробіг дослідження 2?

Це наштовхнуло мене на думку: Що робити, якщо я спершу запустив «Дослідження 2», а потім використав дані з дослідження 1, щоб оновити свої переконання щодо 2? Я робив те саме, що вище, але зворотно: я повторно проаналізував дані дослідження 1, використовуючи частотні, звичайні найменші квадратичні коефіцієнти та стандартні відхилення від дослідження 2 як попередні засоби та стандартні відхилення для мого аналізу даних дослідження 1. Підсумкові результати:

Estimates:
                          mean    sd      2.5%    25%     50%     75%     97.5%
(Intercept)                5.35    0.17    5.01    5.23    5.35    5.46    5.69
condSuppression           -1.09    0.20   -1.47   -1.22   -1.09   -0.96   -0.69
prej                       0.11    0.05    0.01    0.08    0.11    0.14    0.21
condSuppression:prej       0.17    0.06    0.05    0.13    0.17    0.21    0.28
sigma                      1.10    0.06    0.99    1.06    1.09    1.13    1.21
mean_PPD                   5.33    0.11    5.11    5.25    5.33    5.40    5.54
log-posterior           -303.89    1.61 -307.96 -304.67 -303.53 -302.74 -301.83

Знову ж таки, ми бачимо докази взаємодії, однак це може бути не обов'язково. Зауважте, що бальна оцінка для обох байєсівських аналізів не знаходиться навіть у 95% достовірних інтервалах один для одного; два достовірні інтервали байєсівських аналізів мають більше, ніж вони перетинаються.

Що таке байесівське обґрунтування за часовою перевагою?

Моє запитання таке: які обгрунтування байєсів дотримуються хронології способу збирання та аналізу даних? Я отримую результати дослідження 1 і використовую їх як інформативні пріоритети у дослідженні 2, щоб я використовував дослідження 2 для "оновлення" своїх переконань. Але якщо припустити, що результати, які я одержую, беруться випадковим чином з розподілу з справжнім ефектом популяції ... то чому я можу привілейовувати результати дослідження 1? Яке обґрунтування використання результатів дослідження 1 як пріоритетів для дослідження 2 замість того, щоб брати результати дослідження 2 як пріоритети для дослідження 1? Чи дійсно має порядок, в якому я збирав та обчислював аналізи? Мені здається, не так, як мені належить - яке байєсівське виправдання для цього? Чому я мушу вважати, що оцінка балів ближче до .34, ніж до .17 лише тому, що я першим провів дослідження 1?


Відповідаючи на відповідь кодіолога

Кодіолог зауважив:

Другий із цих пунктів вказує на важливий відхід, який ви зробили з байесівської конвенції. Ви не встановили попередньо, а потім підходили обидві моделі по-баєзькому. Ви підходите до однієї моделі не байесівським способом, а потім використовуєте її для пріоритетів для іншої моделі. Якби ви використовували звичайний підхід, ви б не бачили залежності від порядку, який ви бачили тут.

Для вирішення цього питання я підходив до моделей для дослідження 1 та дослідження 2, де всі коефіцієнти регресії мали попереднє значення . Ця змінна була фіктивною змінною для експериментального стану, кодованою 0 або 1; змінної, а також результати, обидва були виміряні на 7-бальною шкалою від 1 до 7. Таким чином, я думаю , що це справедливо вибір раніше. Тільки за тим, як масштабуються дані, було б дуже, дуже рідко бачити коефіцієнти, набагато більші, ніж те, що передбачає попередній показник.N(0,5)condprej

Середні оцінки та стандартне відхилення цих оцінок приблизно такі ж, як у регресії OLS. Дослідження 1:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.756    0.270    5.236    5.573    5.751    5.940    6.289
condSuppression        -1.694    0.357   -2.403   -1.925   -1.688   -1.452   -0.986
prej                   -0.019    0.087   -0.191   -0.079   -0.017    0.040    0.150
condSuppression:prej    0.363    0.119    0.132    0.282    0.360    0.442    0.601
sigma                   1.091    0.057    0.987    1.054    1.088    1.126    1.213
mean_PPD                5.332    0.108    5.121    5.259    5.332    5.406    5.542
log-posterior        -304.764    1.589 -308.532 -305.551 -304.463 -303.595 -302.625

І навчання 2:

Estimates:
                       mean     sd       2.5%     25%      50%      75%      97.5% 
(Intercept)             5.249    0.243    4.783    5.082    5.246    5.417    5.715
condSuppression        -0.599    0.342   -1.272   -0.823   -0.599   -0.374    0.098
prej                    0.137    0.079   -0.021    0.084    0.138    0.192    0.287
condSuppression:prej    0.135    0.120   -0.099    0.055    0.136    0.214    0.366
sigma                   1.132    0.056    1.034    1.092    1.128    1.169    1.253
mean_PPD                5.470    0.114    5.248    5.392    5.471    5.548    5.687
log-posterior        -316.699    1.583 -320.626 -317.454 -316.342 -315.561 -314.651

Оскільки ці засоби та стандартні відхилення більш-менш збігаються з оцінками OLS, ефект порядку вказується вище. Якщо я підключаю задню підсумкову статистику з дослідження 1 в пріорі, коли аналізую дослідження 2, я спостерігаю остаточне заднє, ніж при першому аналізі дослідження 2, а потім використовую цю задню підсумкову статистику як пріорі для аналізу дослідження 1.

Навіть коли я використовую баєсові засоби та стандартні відхилення для коефіцієнтів регресії в якості пріорів замість частолістських оцінок, я все одно спостерігатиму такий же ефект порядку. Тож залишається питання: Яке байєсівське обгрунтування привілейованого дослідження, яке було першим?


2
"Я все ще опинився б у тій же ситуації. Тож залишається питання: що є байєсівським обгрунтуванням привілею на дослідження, яке було першим? - А? У якому сенсі ти все ще привілейований Навчанням 1? Ви можете встановити дві моделі, як ви описали тут, або в зворотному порядку, і ваша остаточна оцінка, наприклад, справжнього коефіцієнта сукупності, prejповинна бути однаковою в будь-якому випадку, якщо я не розумію вашу процедуру.
Кодіолог

@Kodiologist Я редагував для наочності, включаючи докладніше про процедуру.
Марк Білий

1
А як щодо матриці коваріації та помилки? Ви повинні використовувати весь задній шарнір як новий ваш попередник.
Scortchi

@Scortchi bingo - я вважаю, що це правильна відповідь, і саме ця відповідь унутбу привела мене до віри. Те, що я зробив, була дійсно сильною версією оновлення: я взяв резюме статистики, а не всю спільну задню частину. Звідси випливає питання: чи є спосіб включити весь задній суглоб як пріорі в rstanarmабо Стен? Схоже, що це питання було задано тут раніше: stats.stackexchange.com/questions/241690/…
Марк Уайт,

1
Якщо ви починаєте з приорів Гаусса (& незалежність?) Для коефіцієнтів і зворотної гами для дисперсії, то у вас є нормальна зворотна гамма-попередня & її сполучена. Подивіться на оновлення рівнянь.
Scortchi

Відповіді:


22

Теорема Байєса говорить, що posteriorдорівнює prior * likelihoodпісля сканування (тому ймовірність дорівнює 1). Кожне спостереження має, likelihoodяке можна використовувати для оновлення priorта створення нового posterior:

posterior_1 = prior * likelihood_1
posterior_2 = posterior_1 * likelihood_2
...
posterior_n = posterior_{n-1} * likelihood_n

Так що

posterior_n = prior * likelihood_1 * ... * likelihood_n

Комутативність множення передбачає, що оновлення можна проводити в будь-якому порядку . Отже, якщо ви почнете з одного попереднього, ви можете змішати спостереження з дослідження 1 та дослідження 2 в будь-якому порядку, застосувати формулу Байєса і дійти до того самого фіналу posterior.


1
Має ідеальний сенс. Отже, це вказує на можливу причину розбіжності як такої: те, як я робив свої аналізи (включення задньої зведеної статистики до попередніх аргументів наступного дослідження), не є тим, як працює оновлення? Тобто: мені потрібно враховувати всю задність, а не просто підключення з неї зведеної статистики до пріорів наступних аналізів. Правильно?
Марк Білий

4
@MarkWhite Правильно. Задні розподіли у вашому першому аналізі повинні бути вашими пріоритетами для другого.
Кодіолог

4
@Kodiologist та підсумкова статистика про заднє! = Заднє
Марк Білий

@MarkWhite Правильно.
Кодіолог

22

Спершу слід зазначити, що:

  1. p
  2. Ви багато вірите в результати дослідження 1, перекладаючи свої висновки з цього зразка так безпосередньо в пріори. Пам'ятайте, що пріоритет - це не просто відображення результатів минулого. Він повинен кодувати всю сукупність ваших попередніх переконань, включаючи ваші переконання перед попередніми висновками. Якщо ви визнаєте, що у дослідженні 1 були пов'язані помилки вибірки, а також інші види менш простежуваної невизначеності, такі як невизначеність моделі, вам слід скористатися більш консервативним попереднім.

Другий із цих пунктів вказує на важливий відхід, який ви зробили з байесівської конвенції. Ви не встановили попередньо, а потім підходили обидві моделі по-баєзькому. Ви підходите до однієї моделі не байесівським способом, а потім використовуєте її для пріоритетів для іншої моделі. Якби ви використовували звичайний підхід, ви б не бачили залежності від порядку, який ви бачили тут.


1. Як я відстежував негативний результат за іншою моделлю? Що ви маєте на увазі під «негативним результатом»? Що стосується ступеня помилок на рівні І типу, це два окремих дослідження, проведені тижнів один від одного. Так чи інакше, я вважаю, що роблю дослідницький аналіз даних, тому я ніколи не думаю, що значення p на практиці є "правильними" або що ми повинні очікувати, що вони будуть "абсолютно правильними". Якби люди робили лише тести, про які вони думали заздалегідь, ми б пропустили безліч чудових висновків, що трапилися випадково - і ми б витрачали багато даних.
Марк Уайт

2
p

1
2. Так, але ви б закінчилися різними пріоритетами для дослідження 2, що не закінчилося тим, що вкласти стільки довіри до ідеї, що дослідження 1 було точним.
Кодіолог

1
1. Проблема полягає не в тому, що ви зібрали більше даних і проаналізували їх, а в тому, що ви повторно проаналізували дані обох досліджень (за єдиною моделлю з новим прогнозом), оскільки отримали негативні результати під час першого аналізу другого набору даних. Я ніколи не бачив підстав вважати, що перевірка значимості насправді корисна, але, здається, більшість тих, хто вважає, що всі теореми про тестування значимості - це те, що підтримує її корисність, а теореми, як і всі теореми, вимагають певних приміщень, щоб отримати свої висновки.
Кодіолог

1
@Kodiologist - Якщо ви не вважаєте, що тестування на значущість коли-небудь корисне, на якій підставі ви підозріли (наприклад) дослідника, який приходить до висновку, що у більшості людей, ймовірно, сині очі, тому що у всіх їх вибірки два?
Obie 2.0

4

Я думав, що я можу скласти ряд графіків з іншою, але стилізованою проблемою, щоб показати вам, чому може бути небезпечно переходити від методів частота до байєсів і чому використання зведеної статистики може створювати проблеми.

Замість того, щоб використовувати ваш приклад, який є багатовимірним, я збираюся скоротити його до одного виміру за допомогою двох досліджень, розмір яких - три спостереження та три спостереження.

1π11+(х-θ)2.

Я використовую його, оскільки теорема про центральну межу не застосовується, їй не вистачає статистики, надзвичайні спостереження є загальними, нерівність Чебичева не виконується, і ціла низка нормально працюючих рішень розпадається. Я використовую його, тому що він робить чудові приклади, не вкладаючи занадто багато роботи в проблему.

{-5,-1,4}{-1.5,-1,-.5}±669σ±3σ

Задня щільність двох окремих досліджень є Байезійські окремі постеріори

Як візуально очевидно, взяття підсумкової статистики з першого зразка може бути неймовірно оманливим. Якщо ви звикли бачити приємні, однодушні, чітко визначені та названі щільності, то це може швидко вийти з дверей за допомогою байєсівських інструментів. Немає такої названої дистрибуції, як це, але ви, безумовно, можете описати її з узагальненою статистикою, якби ви не візуально її переглядали. Використання зведеної статистики може бути проблемою, якщо ви збираєтесь використовувати це для створення нового попереднього.

Частота розподілу довіри для обох зразків однакова. Оскільки масштаб відомий, єдиний невідомий параметр - медіана. Для вибірки, що становить три, медіана - MVUE. Хоча розподіл Коші не має середнього значення або дисперсії, розподіл вибірки медіани має місце. Він менш ефективний, ніж оцінювач максимальної ймовірності, але для мене не потрібно робити жодних зусиль. Для великих розмірів вибірки метод Ротенберга є MVUE, а також існують рішення середнього розміру вибірки.

За розповсюдження «Частота» ви отримуєте Розподіл довіри часто.

Пр(х|θ)Пр(θ|х)

х

Спільна задня частина є продуктом як позиціонерів, так і за асоціативністю множення не має значення, яким порядком ви користуєтесь. Візуально суглоб задній є Спільні та окремі плакати.

Очевидно, що якби ви наклали деякий спрощений розподіл для плакатів і використали їх підсумкову статистику, ви, ймовірно, отримаєте іншу відповідь. Насправді це могла бути зовсім інша відповідь. Якби для дослідження було використано 70% надійний регіон, це призвело б до відключення достовірної області. Існування відключених інтервалів буває в байєсівських методах іноді. Графік інтервалу найвищої щільності та найменшого інтервалу щільності для дослідження єHDR проти LDR

Ви помітите, що HDR порушений ковзанням області, яка знаходиться поза достовірним набором.

Хоча багато з цих проблем зазвичай зникають у великих наборах з регресією, я дозволю вам навести приклад природної різниці в тому, як методи Байесія і Частого лікаря по-різному поводяться з відсутніми змінними в регресії.

Розглянемо добре побудовану регресію з однією відсутньою змінною, погодою. Припустимо, що клієнти поводяться по-різному в дощові дні та сонячні дні. Якщо цієї різниці достатньо, легко можуть існувати два байєсівські задні режими. Один режим відображає сонячну поведінку, інший дощовий. Ви не знаєте, чому у вас два режими. Це може бути статистичний запуск або може бути відсутнім точкою даних, але або зразок незвичний, або модель має пропущену змінну.

Рішення Frequentist може оцінити два стани і може поставити лінію регресії в область, де поведінка клієнта насправді не відбувається, але яка в середньому визначає два типи поведінки. Це також буде упередженим вниз. Проблеми можуть потрапити в аналіз залишків, особливо якщо є велика різниця у справжніх відхиленнях, але це може не статися. Це може бути одна з тих дивних фотографій залишків, які час від часу з’являтимуться на перехресній валідації.

Той факт, що у вас є два різних афіші з одних і тих же даних, означає, що ви не помножили їх два разом. Або ви створили задню частину рішення «Частота», яке не поєднувало один з одним із байєсівською задньою, або ви створили попередню зведену статистику і функція ймовірності не була ідеально симетричною, що є загальним явищем.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.