Дозволити даним диктувати пріори, а потім запустити модель за допомогою цих пріорів? (наприклад, пріори, керовані даними з одного набору даних)


9

Наскільки я розумію, ми не повинні дозволяти тому самому набору даних, який ми аналізуємо, для визначення / визначення того, як виглядають попередні розподіли в байєсівському аналізі. Зокрема, недоцільно визначати попередні розподіли для байєсівського аналізу на основі зведених статистичних даних із того ж набору даних, який ви збираєтесь використовувати пріори, щоб допомогти підходити до моделі.

Хтось знає про ресурси, які конкретно обговорюють це як невідповідні? Мені потрібні цитати для цього питання.


Відповіді:


11

Так, це недоцільно, оскільки воно використовує одні й ті самі дані двічі, що призводить до помилково впевнених результатів. Це відомо як "подвійне занурення".

Для довідки я б почав з Карліна та Луї (2000). Незважаючи на те, що "подвійне занурення" було однією з головних критик Емпіричного Бейса, гл. 3, зокрема розділ 3.5 цієї книги, описує способи оцінки відповідних інтервалів довіри, використовуючи підхід EB.

Бергер Дж (2006). \ Випадок об'єктивного байєсівського аналізу. "Байєсівський аналіз, 1 (3), 385 {402

Бредлі П. Карлін, Томас А. Луї 2000. Методи Бейса та Емпіричного Байєса для аналізу даних.

Darniede, WF 2011. Баєсові методи для пріорів, залежних від даних. MS дисертація, штат Огайо, ун-т.

Гельман, А., Карлін, Дж. Б., Стерн, Х. С. та Рубін, DB (2003), Байєсовий аналіз даних, Друге видання (Тексти Chapman & Hall / CRC в статистичній науці), Chapman and Hall / CRC, 2-е. ред.


@sarah Будь ласка, зареєструйте свій обліковий запис, щоб ви могли відновити своє запитання. Просто завітайте на цю URL-адресу: stats.stackexchange.com/users/login

1

Це може мати сенс використовувати дані для побудови попереднього, хоча.

Для прикладу моделювання сумішей див. Richardson & Green (1997): http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.27.3667

Вони використовують середнє та діапазон точок даних як гіперпараметри для попереднього, і це має ідеальний сенс.

Проблема використання даних двічі виникає, коли інформаційний пріоритет виходить із даних, на мою думку.

Поки ви перевіряєте, що ваш попередній розподіл "рівний" там, де знаходиться задній розподіл, тоді ви знаєте, що ваш попередній розподіл не має сильного впливу на результати.


Використання даних для побудови попередньої не може мати місце в байєсівській парадигмі. Тож це не має сенсу з байєсівської точки зору, і звичайне підтвердження байєсівських процедур не застосовується. Отриманий висновок може бути цілком справедливим, але його слід демонструвати з перших принципів. (Річардсон і Грін використовують те, що називається емпіричним Байесом. Що не є байєсівською процедурою.)
Сіань

Хоча це не має сенсу в байєсівській парадигмі, іноді лінію поділу між тим, що є даними, і тим, що є попереднім, важко провести. Дивіться мою відповідь на stats.stackexchange.com/questions/112451/…
kjetil b halvorsen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.