Чи потрібні численні виправлення порівнянь для неформальних / візуальних «багаторазових порівнянь»?


9

У мене є якесь філософське запитання про те, коли потрібно багаторазове виправлення порівняння.

Я вимірюю сигнал безперервного часу, що змінюється (в окремі моменти часу). Час від часу відбуваються окремі події, і я хотів би встановити, чи мають ці події суттєвий вплив на вимірюваний сигнал.

Тож я можу взяти середній сигнал, який слідкує за подією, і зазвичай я можу побачити там якийсь ефект із певним піком. Якщо я вибираю час цього піку і скажу t-тест, щоб визначити, чи є він суттєвим порівняно з тим, коли подія не відбудеться, чи потрібно мені робити багаторазове виправлення порівняння?

Хоча я коли-небудь виконував один t-тест (обчислював 1 значення), під час свого первинного візуального огляду я вибрав той, який має найбільший потенційний ефект, з (скажімо, 15 різних часових затримок після затримки, які я побудував). Тож чи потрібно мені робити багаторазову корекцію порівняння для тих 15 тестів, які я ніколи не виконував?

Якби я не використовував візуальний огляд, а просто робив тест на кожному затримці події і вибирав найвищий, мені, безумовно, потрібно було б виправити. Я просто трохи розгублений, чи потрібно мені чи ні, якщо вибір "найкращої затримки" проводиться за яким-небудь іншим критерієм, ніж сам тест (наприклад, візуальний вибір, найвища середня кількість тощо)

Відповіді:


11

Технічно, коли ви робите візуальний попередній вибір місця тестування, ви вже повинні виправити це: ваші очі та мозок вже обходять певні невизначеності в даних, на які ви не враховуєте, якщо просто зробите тест у той момент. .

Уявіть, що ваш "пік" - це справді плато, і ви вручну вибираєте різницю "пік", а потім запускаєте тест на це, і він виявляється ледь значущим. Якщо ви провели тест трохи більше вліво або вправо, результат може змінитися. Таким чином, ви повинні враховувати процес попереднього вибору: у вас не зовсім впевненість, що ви заявляєте! Ви використовуєте дані для вибору, тому ви ефективно використовуєте ту саму інформацію двічі.

Звичайно, на практиці дуже важко пояснити щось на кшталт процесу рукоділля, але це не означає, що не слід (або принаймні брати / заявляти отримані інтервали довіри / результати випробувань із зерном солі).

Висновок : завжди слід виправляти багаторазове порівняння, якщо ви робите кілька порівнянь, незалежно від того, як ви вибрали ці порівняння. Якщо вони не були вибрані перед переглядом даних, вам слід виправити це додатково.

Примітка: альтернативою виправлення ручного попереднього вибору (наприклад, коли це практично неможливо), ймовірно, є констатація результатів, щоб вони, очевидно, містили посилання на ручний вибір. Але це, мабуть, не "відтворювані дослідження".


1
Завжди виправлення, проте, збільшує рівень помилок вашого типу II. Якщо у вас є всі значні результати перед виправленням, ви можете втратити їх після виправлення, не враховуючи низьких шансів отримати всі значні результати. Це може залежати від вартості помилки типу I або типу II у вашому контексті.
Етьєн Низький Декарі

Нік дав відповідь, яку я хотів би дати, якби вперше відповів. Однак у початковій програмі ви (mkpitas) сказали, що якщо ви насправді виконали 15 тестів, вам не доведеться робити корекцію кратності. Я не бачу, чому ви це сказали. Я думаю, що в цьому випадку потреба в корекції кратності просто стає очевиднішою. @etienne ваш пункт стосується виправлення FWER, яке дуже суворо контролює помилки I типу. Якщо ви використовуєте FDR, ви не пожертвуєте стільки сил.
Майкл Р. Черник

8

Давно в одному з моїх перших уроків статистики я читав про це в тексті (я думаю, це було старе видання книги про регресію Коена), де було сказано, "це питання про те, в чому розумні люди можуть відрізнятися".

Мені незрозуміло, що комусь колись потрібно виправляти численні порівняння, а також, якщо вони роблять, то протягом якого періоду чи набору порівнянь вони повинні виправитись. Кожна стаття? Кожна регресія чи ANOVA? Все, що вони публікують на тему? Що з того, що публікують ДРУГІ люди?

Як ви пишете у своєму першому рядку, це філософсько.


4
Ви праві, що виникає питання про те, скільки порівнянь робиться, але я не думаю, що це означає ваш висновок. Розумні люди можуть відрізнятися, оскільки вони мають різні цілі та різні оцінки (функції втрат) для можливих результатів. Якщо вам слід виправити кілька порівнянь, це тому, що це призводить до кращої очікуваної втрати. Як таке, це інтенсивно практичне питання, а не проста "філософія", і є раціональні способи її вирішення, з якими розумні люди можуть погодитися.
whuber

2
@whuber ви напевно праві в деяких ситуаціях. Іноді існує функція розумного збитку, хоча часто важко отримати явну заяву. Але в інші часи, наприклад, в пошукових роботах, у мене виникають проблеми, коли можлива будь-яка функція втрат. Звичайно, вся ідея функції втрат відштовхує нас від граалевого статусу p = .05, і типового припущення, що потужність = .8 або .9 є досить хорошою, і на (на мій погляд) більш розумною ідеєю, що ми встановлюємо їх на більш суттєвих підставах.
Пітер Флом

1
Дякую за роз’яснення сфери та духу вашої відповіді, Петре.
whuber

4
Я розлючуюся, коли люди кажуть, що тестування на кратність не має значення. Я бачу, що таке ставлення занадто часто виражається в медичних дослідженнях. Ви можете вказати на багато робіт, які дійшли невірних висновків, оскільки множинність ігнорувалася. Дуже важливо не публікувати документи з помилковими висновками в медицині, оскільки це впливає на те, як лікують пацієнтів та ставлять під загрозу життя. Багатозначність сприяє упередженості публікацій (адже коли питання вивчається багато разів, публікуються лише дослідження зі значними результатами), що є серйозним питанням мета-аналізу,
Майкл Р. Черник

1
@MichaelChernick, я згоден - дуже проблематично, коли люди ігнорують кілька виправлень тестування. Однак я думаю, що Пітер підкреслює хороший момент - якою має бути сфера багаторазового тестування? Всі тести зроблені в одному документі? Всі тести зроблені за допомогою одного набору даних? Всі тести, зроблені з початку часу? Здається, не існує однозначно правильної відповіді.
Макрос

4

Якщо ви намагаєтесь приймати одноразові рішення щодо реальності і хочете контролювати швидкість, з якою ви помилково відкидаєте нульову гіпотезу, тоді ви будете використовувати тестування значимості нульової гіпотези (NHST) і захочете скористатись корекцією для кількох порівнянь. Однак, як зазначає Пітер Флом у своїй відповіді, незрозуміло, як визначити набір порівнянь, над якими слід застосувати виправлення. Найпростіший вибір - це набір порівнянь, застосованих до даного набору даних, і це найбільш поширений підхід.

Однак науку, мабуть, найкраще розглядати як накопичувальну систему, коли одноразові рішення не потрібні і насправді служать лише для зниження ефективності накопичення доказів (зведення отриманих доказів до одного біта інформації). Таким чином, якщо дотримуватися належним чином наукового підходу до статистичного аналізу, відхиляючи NHST для таких інструментів, як коефіцієнти ймовірності (можливо, і баєсовські підходи), "проблема" численних порівнянь зникає.


1

Можлива альтернатива виправлення, залежно від вашого питання, - це перевірка значущості суми p-значень. Потім ви можете навіть штрафувати себе за тест, який не робиться, додаючи високі значення p.

Може використовуватися розширення (яке не потребує незалежності) методу Фішера (яке вимагає незалежності тесту).

Напр. Метод Коста


Це приклади процедур, що застосовуються в метааналізі, коли окремі дослідження дають лише р-значення або дані не можуть бути об'єднані, але кожне дослідження має розрахунок p-значення. Також комбінований метод Фішера і зворотне нормальне є способами побудови правил зупинки в адаптивних конструкціях.
Майкл Р. Черник

1

Варто пам’ятати, що багаторазова корекція тестування передбачає незалежні тести. Якщо дані, які ви аналізуєте, не є незалежними, речі стають дещо складнішими, ніж просто виправлення кількості проведених тестів, вам доведеться враховувати співвідношення даних, що аналізуються, або ваше виправлення, ймовірно, буде занадто консервативним, і ви мають високий рівень помилок II типу. Я виявив, що перехресне підтвердження, перестановки на перестановку або завантажувальне програмне забезпечення можуть бути ефективними способами боротьби з кількома порівняннями при правильному використанні. Інші згадали про використання FDR, але це може дати невірні результати, якщо у ваших даних багато незалежності, оскільки передбачається, що значення p є однаковими для всіх тестів під нулем.


2
Ласкаво просимо на сайт, Метт. Стосовно вашого вступного речення: Варто пам’ятати, що багаторазова корекція тестування передбачає незалежні тести. Зауважте, що це стосується деяких процедур виправлення декількох тестів, але, безумовно, не для всіх. Наприклад, найпростіший з усіх (Бонферроні) не передбачає незалежності, і, дійсно, є досить неефективним, якщо тести насправді є незалежними! :-) Також у режимі безперервного розподілу (граничне) розподіл синглуp-значення буде рівномірним під нулем; Ви можете розглянути можливість редагування, щоб уточнити свої зауваження.
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.