Чому багаторазове порівняння є проблемою?


44

Мені важко зрозуміти, що насправді є проблемою із численними порівняннями . З простою аналогією кажуть, що людина, яка прийме багато рішень, зробить багато помилок. Так застосовуються дуже консервативні заходи обережності, як корекція Бонферроні, щоб зробити ймовірність того, що ця людина зробить будь-яку помилку, якнайменше, наскільки це можливо.

Але чому нас хвилює те, чи людина взагалі допустила будь-яку помилку серед усіх прийнятих рішень, а не відсоток неправильних рішень?

Дозвольте спробувати пояснити, що мене бентежить з іншою аналогією. Припустимо, є два судді, одному - 60 років, а другому - 20 років. Тоді виправлення Бонферроні говорить тому, що 20 років має бути максимально консервативним у вирішенні питання про страту, оскільки він ще багато років буде працювати суддею, прийме ще багато рішень, тому йому потрібно бути обережним. Але той, кому 60 років, можливо, скоро піде на пенсію, прийме менше рішень, тож він може бути більш недбалим порівняно з іншим. Але насправді обидва судді повинні бути однаково обережними або консервативними, незалежно від загальної кількості рішень, які вони приймуть. Я думаю, що ця аналогія більш-менш пояснює реальні проблеми, коли застосовується корекція Бонферроні, яку я вважаю контртуативною.


8
насправді не є відповіддю на ваше запитання, але ви стикалися з помилковими показниками виявлення (FDR)? "За межами Бонферроні" від Narum: springerlink.com/content/c5047h0084528056
apeescape

Відповіді:


40

Ви заявили щось, що є класичним протилежним аргументом до виправлень Бонферроні. Чи не повинен я коригувати свій критерій альфа на основі кожного тесту, який я коли-небудь зробив? Цей різновид рекламного абсурду означає, що деякі люди взагалі не вірять у виправлення стилю Бонферроні. Іноді вид даних, з якими вони мають справу у своїй кар’єрі, такий, що це не проблема. Для суддів, які приймають одне або дуже мало рішень щодо кожного нового доказу, це дуже вагомий аргумент. А як щодо судді з 20 підсудними, і хто ґрунтується на своєму судовому висновку на єдиному великому наборі даних (наприклад, військові трибунали)?

Ви ігноруєте удари, які є частиною аргументу. Взагалі вчені шукають щось - р-значення менше альфа. Кожна спроба знайти одного - це ще один удар по консерві. Зрештою, його знайдуть, якщо на нього достатньо пострілів. Тому за це слід штрафувати.

Те, як ви гармонізуєте ці два аргументи, - це усвідомлювати, що вони обоє справжні. Найпростішим рішенням є розглянути тестування відмінностей в одному наборі даних як удару по проблемі, але розширення сфери виправлення поза, що було б слизьким нахилом.

Це справді складна проблема в багатьох сферах, зокрема FMRI, де порівнюються тисячі точок даних, і деякі випадково можуть виникнути як значні. Зважаючи на те, що поле було історично дуже дослідницьким, треба щось зробити, щоб виправити той факт, що сотні областей мозку виглядатимуть істотними суто випадково. Тому в цій галузі було розроблено багато методів коригування критерію.

З іншого боку, у деяких полях можна, максимум, дивитись на 3 - 5 рівнів змінної і завжди просто перевіряти кожну комбінацію, якщо виникає значна ANOVA. Це, як відомо, має деякі проблеми (помилки типу 1), але це не особливо страшно.

Це залежить від вашої точки зору. Дослідник FMRI визнає реальну потребу в зміні критеріїв. Людина, яка дивиться на маленьку ANOVA, може відчути, що там явно щось є з тесту. Правильна консервативна точка зору на декілька порівнянь - це завжди робити щось щодо них, але лише на основі одного набору даних. Будь-які нові дані скидають критерій ... якщо ви не баєс ...


Дякую, це було дуже корисно. Я проголосую за нього, коли мені вистачить представника.
AgCl

Дослідник FMRI, ймовірно, також використовував би критерій False Discovery Rate (FDR), оскільки він гарантує альфа * 100% помилкових позитивних результатів протягом тривалого періоду тестів.
Брендон Шерман

@John, чи можете ви, будь ласка, відповісти на це питання stats.stackexchange.com/questions/431011/… Я буду радий, якщо ви, будь ласка, можете мені допомогти.
Саббір Ахмед

26

Шановні статистики зайняли найрізноманітніші позиції у кількох порівняннях. Це тонкий предмет. Якщо хтось вважає, що це просто, я б цікавився, наскільки вони про це думали.

Ось цікавий баєсівський погляд на багаторазове тестування від Ендрю Гелмана: Чому ми (зазвичай) не турбуємось про багаторазове порівняння .


2
Що мені здається цікавим у цьому документі, це те, що перспектива є байєсівською, але ієрархічний підхід моделювання, запропонований замінити виправлення для кількох порівнянь, не вимагає від вас байєсів.
кон'югатприор

1
Я просто переглядав цю статтю; Я думаю, можливо, це потрібно більше цитувати. Я ненавиджу ефекти промивання в каналізацію, тому що передові методи багаторазового порівняння недостатньо відомі або прості у виконанні. На противагу цьому, lmer підхід є просто мертвим. Цікаво, чи є з цим серйозні проблеми, які потрібно враховувати.
russellpierce


13

Що стосується коментаря раніше, те, що слід пам’ятати досліднику ФМР, полягає в тому, що важливим є клінічно важливий результат, а не зміщення щільності одного пікселя на фМРТ головного мозку. Якщо це не призведе до клінічного поліпшення / шкоди, це не має значення. Це один із способів зменшити занепокоєння щодо кількох порівнянь.

Дивитися також:

  1. Бауер, П. (1991). Багаторазове тестування в клінічних випробуваннях. Stat Med, 10 (6), 871-89; дискусія 889-90.
  2. Прошан, М. А. та Вацлав, М. А. (2000). Практичні вказівки щодо коригування кратності в клінічних випробуваннях. Контрольні клінічні випробування, 21 (6), 527-39.
  3. Rothman, KJ (1990). Немає коригувань для кількох порівнянь. Епідеміологія (Кембридж, Массачусетс), 1 (1), 43-6.
  4. Пернегер, телебачення (1998). Що не так з коригуванням bonferroni. BMJ (Clinical Research Ed.), 316 (7139), 1236-8.

Це, безумовно, варто згадати: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico

Я впевнений, що їм було весело розпитувати мертвого лосося про його емоції !!!
nico

У цій публікації також є корисні посилання на RCT : j.mp/bAgr1B .
chl

10

Для виправлення ідей: я візьму випадок, коли ви маєте аверс, незалежних випадкових змінних , що для з . Я припускаю, що ви хочете знати, які з них мають нульове значення, формально ви хочете перевірити:n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0 VsH1i:θi0

Визначення порогу: Ви маєте прийняти рішень, і у вас може бути різна мета. Для даного тесту , безумовно, виберете порог і вирішите не приймати якщо .niτiH0i|Xi|>τi

Різні варіанти: Ви повинні вибрати пороги і для цього у вас є два варіанти :τi

  1. вибирайте однаковий поріг для всіх

  2. вибрати різний поріг для всіх (найчастіше поріг даних, див. нижче).

Різні цілі: ці варіанти можна визначити для різних цілей, таких як

  • Контроль ймовірності неправильного відхилення для одного або декількох .H0ii
  • Контроль очікування коефіцієнта помилкової тривоги (або помилкової частоти виявлення)

    Що ви коли-небудь є вашою ціллю в кінці, це гарна ідея використовувати порогову кількість даних.

Моя відповідь на ваше запитання: ваша інтуїція пов'язана з основним евристикою щодо вибору порогу даних. Це наступне (за походженням процедури Холма більш потужне, ніж Бонфероні):

Уявіть, що ви вже прийняли рішення щодо найнижчогоі рішення - прийняти для всіх них. Тоді вам доведеться лише порівняти і ви не ризикували неправильно відхилити ! Оскільки ви не використали свій бюджет, ви можете взяти трохи більше ризику для тесту, що залишився, і вибрати більш високий поріг.| X i | H 0 i n - p H 0 ip|Xi|H0inpH0i

Що стосується ваших суддів: я припускаю (і, мабуть, ви повинні зробити те саме), що обидва судді мають однакові бюджети за помилкове звинувачення на все життя. Суддя 60 років може бути менш консервативним, якщо в минулому він нікого не звинувачував! Але якщо він вже зробив багато звинувачення, він буде більш консервативним і, можливо, навіть більше, ніж наймолодший суддя.


Я думаю, ти маєш помилки в своїх гіпотезах - вони обидва здаються однаковими ...
walkytalky

2

Ілюстративна (і смішна) стаття; http://www.jsur.org/ar/jsur_ben102010.pdf ) про необхідність багаторазової корекції тестування в практичному дослідженні, що розвивається в багатьох змінних, наприклад, fmri. Це коротке цитування говорить про більшу частину повідомлення:

"[...] ми завершили сеанс сканування ФМР з посмертним атлантичним лососем як предмет. Лососі було показано те саме завдання соціального погляду, яке пізніше було застосовано до групи людей."

це, на мій досвід, приголомшливий аргумент, щоб заохотити користувачів використовувати кілька виправлень тестування.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.