Зрозуміле мовне значення "залежних" та "незалежних" тестів у літературі з кількома порівняннями?


18

Як у літературі щодо рівня помилок (FWER), так і щодо помилкового виявлення (FDR), окремі методи контролю FWER або FDR вважаються відповідними залежним або незалежним тестам. Наприклад, у документі 1979 р. "Проста послідовно відхиляюча процедура багаторазового випробування" Холм писав, щоб протиставити його метод посилення Шідака проти його покрокового методу контролю Бонферроні:

Така ж обчислювальна простота виходить, коли статистика тестів є незалежною .

У «Контролі над частотою помилкового відкриття» Бенджаміні та Хохберга (1995) автори пишуть:

Теорема 1. Для незалежної статистики тестів та будь-якої конфігурації помилкових нульових гіпотез вищевказана процедура контролює FDR за .q

Пізніше, у 2001 році, Бенджаміні та Єкутіелі пишуть:

1.3. Проблема . Намагаючись використовувати підхід FDR на практиці, залежна статистика тестів зустрічається частіше, ніж незалежна , приклад декількох кінцевих точок вищезазначеного є конкретним прикладом.

Які конкретні значення залежного незалежного використовують ці автори? Я був би радий формальних визначень того, що робить тести залежними чи незалежними одне від одного, якщо вони супроводжують зрозуміле мовне пояснення.

Я можу придумати декілька можливих значень, але я не дуже прихилююся до цього, якщо вони є:

  • "Залежний" означає багатоваріантні тести (тобто багато залежних змінних з однаковими або подібними предикторами); незалежний означає одноваріантні тести (тобто багато незалежних змінних, одна залежна змінна).

  • "Залежний" означає тести на основі парних / зіставлених предметів (наприклад, парний t- тест, повторні заходи ANOVA тощо); "незалежний" означає непарний / незалежний зразок дослідження зразків.

  • "Залежний" означає, що ймовірність відхилення тесту корелює з ймовірністю відхилення іншого тесту, а "позитивна залежність" означає, що ця кореляція є позитивною; "незалежний" означає, що ймовірності відхилення є некорельованими.

Список літератури
Бенджаміні, Ю. та Хохберг, Ю. (1995). Контроль помилкової частоти виявлення: практичний та потужний підхід до декількох тестувань . Журнал Королівського статистичного товариства. Серія B (Методична) , 57 (1): 289–300.

Бенджаміні, Ю. та Єкутіелі, Д. (2001). Контроль швидкості виявлення помилкових даних при багаторазовому тестуванні в залежності . Анали статистики , 29 (4): 1165–1188.

Холм, С. (1979). Проста послідовно відхиляюча процедура багаторазового тестування . Скандинавський журнал статистики , 6 (65-70): 1979.


1
Тестова статистика - випадкова величина. "Незалежний" у цьому контексті має точно таке саме значення, яке він має для будь-якого набору випадкових змінних.
whuber

Дякую @whuber, будь-який шанс, що ти хотів би посилити це у відповідь? :)
Олексій

Відповіді:


13

"Багаторазове порівняння" - це назва, що додається до загальної проблеми прийняття рішень на основі результатів більш ніж одного тесту. Характер проблеми з'ясовується відомим мультфільмом XKCD "Зелений квасоля", в якому дослідники виконували тести гіпотез щодо асоціацій між споживанням желе квасолі (20 різних кольорів) та прищами. В одному тесті було , що значення p менше , що приводить до висновку, що "зелена квасоля викликає прищі". Жарт полягає в тому, що за значенням p-значення мають шансів бути меншими за , тому інтуїтивно ми очікуємо побачити значення p, яке є низьким серед різних тестів.1/201/201/2020

Те, що мультфільм не говорить - це те, що тестів були засновані на окремих наборах даних або на одному наборі даних.20

За допомогою окремих наборів даних кожен з результатів має шансів бути "значущими". Тоді основні властивості ймовірностей (незалежних подій) означають, що шанс усіх результатів "незначний" становить . Залишився шанс є достатньо великим, щоб підтвердити нашу інтуїцію, що єдиний "значний" результат у цій великій групі результатів не здивує; жодна причина не може бути поважно приписана до такого результату, крім випадкових випадків.201/2020(1-0,05)200,361-0,36=0,64

Якщо результатів базувалися на загальному наборі даних, однак попередній розрахунок був би помилковим: він передбачає, що всі результатів були статистично незалежними. Але чому б їх не було? Аналіз варіації дає стандартний приклад: при порівнянні двох або більше груп лікування з контрольною групою кожне порівняння включає однакові результати контролю. Порівняння не є незалежними. Зараз, наприклад, "значні" відмінності можуть виникнути через випадкові зміни в елементах управління. Така варіація може одночасно змінити порівняння з кожною групою.2020

(ANOVA вирішує цю проблему за допомогою свого загального F-тесту. Це порівняння "правити ними всім": ми не будемо довіряти порівнянню групи до групи, якщо спочатку цей F-тест є суттєвим.)

Ми можемо абстрагувати суть цієї ситуації за допомогою наступних рамок. Кілька порівнянь стосується прийняття рішення про з р-значень з різних тестів. Ці р-значення є випадковими змінними. Якщо припустити, що всі відповідні нульові гіпотези логічно послідовні, кожна повинна мати рівномірний розподіл. Коли ми знаємо їх спільний розподіл, ми можемо побудувати розумні способи об'єднати всі в одне рішення. В іншому випадку найкраще, що ми можемо зробити, - це орієнтуватися на приблизні межі (що, наприклад, є корекцією Бонферроні).(p1,p2,,pн)нн

Спільні розподіли незалежних випадкових величин легко обчислити. Тому література розмежовує цю ситуацію і випадок незалежності.

Відповідно, правильне значення "незалежного" у цитатах полягає у звичайному статистичному розумінні незалежних випадкових величин.


Зауважимо, що для досягнення цього висновку потрібно було припустити: а саме, що всі нульових гіпотез є логічно послідовними. Як приклад того, чого уникнути, розглянемо проведення двох тестів із партією одновимірних даних вважається випадковою вибіркою з нормального розподілу невідомих середніх . Перший - t-тест , з р-значенням , а другий - t-тест , з значенням . Оскільки обидва не можуть логічно утримуватися одночасно, було б проблематично говорити про "нульовий розподіл"н(х1,,хм)мкмк=0p1мк=1p2(p1,p2). У цьому випадку такого взагалі не може бути! Таким чином, сама концепція статистичної незалежності іноді навіть не може застосовуватися.


+1 Дякую, бешкетник! На прикладі ANOVA, чи може бути так, що будь-яке попарне порівняння після ANOVA, де перевіряються всі можливі пари, було б "залежним", або лише випадок, коли одна група порівнюється з вибором інших? (Я думаю, що колишній, але хочу бути впевненим).
Олексій

2
У ANOVA дисперсія залишків оцінюється за всіма даними. Таким чином, будь-яке два порівняння буде (злегка) залежним, хоча б лише з цієї причини, навіть коли порівняння не мають спільних груп. Коли порівняння мають спільні групи (наприклад, "А" проти "С" і "В" проти "С"), залежність є більш очевидною і вираженою.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.