Чи можу я перевірити обґрунтованість попередніх даних?


10

Проблема

Я пишу функцію R, яка виконує байєсівський аналіз, щоб оцінити задню щільність за даними попередніх даних та даних. Я хотів би, щоб функція надсилала попередження, якщо користувачеві потрібно переглянути попереднє.

У цьому питанні мені цікаво дізнатися, як оцінити попереднє. Попередні питання висвітлювали механіку викладу інформованих пріорів ( тут і тут ).

Наступні випадки можуть вимагати повторної оцінки:

  • дані являють собою крайній випадок, який не враховувався при заявленні попереднього
  • помилки в даних (наприклад, якщо дані є в одиницях g, коли попереднє значення є в кг)
  • неправильний пріоритет був вибраний з набору доступних пріорів через помилку в коді

У першому випадку пріори зазвичай досить розсіяні, що дані, як правило, переповнюють їх, якщо значення даних не лежать у непідтримуваному діапазоні (наприклад, <0 для logN чи Gamma). Інші випадки - помилки чи помилки.

Запитання

  1. Чи є якісь питання щодо обґрунтованості використання даних для оцінки попереднього?
  2. який-небудь тест найкраще підходить для цієї проблеми?

Приклади

Ось два набори даних, які погано узгоджуються з раніше, оскільки вони є з популяцій або з (червоний), або з (синій).logN(0,1)N(0,5)N(8,0.5)

Сині дані можуть бути дійсною комбінацією даних попереднього +, тоді як для червоних даних потрібен попередній розподіл, який підтримується для негативних значень.

введіть тут опис зображення

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

Відповіді:


4

Вам повинно бути зрозуміло, що ви маєте на увазі під "попереднім". Наприклад, якщо вас цікавить моя попередня думка про тривалість життя у Великобританії, це не може бути помилкою. Це моя віра! Це може суперечити спостережуваним даним, але це зовсім інша справа.

Також має значення контекст. Наприклад, припустимо, нас цікавить населення чимось. Мій попередній стверджує, що ця кількість повинна бути суворо негативною. Однак дані спостерігаються з помилками, і у нас є негативні вимірювання. У цьому випадку попередній не є недійсним, він є лише попереднім для латентного процесу.

Щоб відповісти на ваші запитання,

  1. Чи є якісь питання щодо обґрунтованості використання даних для оцінки попереднього?

Пурист стверджує, що ви не повинні використовувати дані двічі. Однак прагматична людина буде просто протидіяти тому, що ви в першу чергу недостатньо подумали про попереднє.

2 Чи підходить якийсь тест найкраще для цієї проблеми?

Це дійсно залежить від розглянутої моделі. Я припускаю, що на самому основному ви можете порівняти попередній діапазон із діапазоном даних.


дякую за вашу відповідь, особливо це стосується №1. Для тесту я думав про це, але діапазон більшості пріорів буде обмежений у , тому я думав, можливо, порівняти межі квантильних інтервалів, наприклад, надіслати попередження, якщо: 80-й квантил даних> 99-й квантил попереднього або якщо: будь-які дані перевищують 100-10e-журнальний (n) -й кількісний), хоча мені доведеться пограти з числами, щоб я зрозумів правильні помилки.
David LeBauer

3

Ось два мої центи:

  1. Я думаю, що вам слід потурбуватися щодо попередніх параметрів, пов'язаних із співвідношеннями.

  2. Ви говорите про інформативний попередній час, але я думаю, ви повинні попередити користувачів про те, що є розумним попередженням неінформативності. Я маю на увазі, іноді нормальний з нульовою середньою та 100 дисперсією є досить неінформативним, а іноді інформативним, залежно від використовуваних масштабів. Наприклад, якщо ви регресуєте заробітну плату на висотах (сантиметрах), ніж вище, це досить інформативно. Однак якщо ви регресуєте заробітну плату за висоту (метри), то зазначене вище не є таким інформативним.

  3. Якщо ви використовуєте пріоритет, який є результатом попереднього аналізу, тобто новий пріоритет - це насправді старий апостеріор попереднього аналізу, то все відрізняється. Я припускаю, що це слід зазначити.


ви можете, будь ласка, уточнити пункт 1? re: пункт 2, Як згадувалося в ОП, мене це питання не так цікавить, як встановити попереднє; Повторний пункт 3: багато інформованих пріорів - це аналіз наявних даних (відповідний розподіл даних), тоді як інші базуються на експертних знаннях (вони, як правило, менш обмежені).
David LeBauer

Припустимо, ви підходите до такої моделі, як: y ~ a + b * x / z. Якщо немає значень Z (якщо вони можуть бути позитивними чи негативними), то важко знати, що очікує від сигналу від b. Більше того, якщо Z може бути біля нуля, то b може бути занадто низьким або занадто великим. Це може зробити ваш попередній нерозумним. Дивіться цей запис у блозі Гельмана: stat.columbia.edu/~cook/movabletype/archives/2011/06/…
Маноел

№3: Як зазначалося, будьте обережні щодо використання даних двічі. Наприклад, на тонкому є ієрархічна модель, а інша - вибрати попереднє, що відповідає імовірності. Пізніше я би переймався таким аналізом. Я бачу вибір попереднього більше як інструмент регуляризації.
Маноел Галдіно
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.