Плутанина з помилковою швидкістю виявлення та багаторазовим тестуванням (на Colquhoun 2014)


19

Я прочитав цей чудовий документ Девіда Колхуна: Дослідження рівня помилкового виявлення та неправильного тлумачення p-значень (2014). По суті, він пояснює, чому показник помилкового виявлення (FDR) може досягати навіть якщо ми контролюємо помилку I типу з .30%α=0,05

Однак я все ще плутаюсь щодо того, що станеться, якщо я застосую FDR-контроль у разі багаторазового тестування.

Скажімо, я провів тест для кожної з багатьох змінних і обчислив значення використовуючи процедуру Бенджаміні-Хохберга. Я отримав одну змінну, яка є значущою при . Я запитую, що FDR для цього висновку?qq=0,049

Чи можна сміливо припускати, що в перспективі, якщо я роблю такий аналіз регулярно, FDR не на , а нижче , тому що я використовував Бенджаміні-Хохберга? Це не так, я б сказав, що значення значення відповідає -значенню в статті Colquhoun, і його міркування також застосовуються тут, так що, використовуючи -порогові значення я ризикую "дурити себе" (як Colquhoun ставить це) у випадків. Однак я намагався пояснити це більш формально, і мені не вдалося.30%5%qpq0,0530%


2
Привіт, @January, мені цікаво, чому б ти запропонував такий великий виграш (250), а потім ніколи не повертався, щоб нагородити його та / або перевірити відповіді! Сподіваюся, вам добре.
амеба каже, що повернеться до Моніки

3
Два рукописи зійшли на мене, як тонни цегли, і я зовсім забув про це.
січня

Відповіді:


15

Так трапляється, що я випадково прочитав цей же документ лише пару тижнів тому. Колкхоун згадує про багаторазове порівняння (включаючи Бенджаміні-Хохберга) у розділі 4, коли ставить проблему, але я вважаю, що він не робить проблему достатньо чіткою - тому я не здивований, коли побачив вашу плутанину.

Важливим моментом, який потрібно усвідомити, є те, що Colquhoun говорить про ситуацію без будь-яких коригувань порівняння. Роботу Колхуона можна зрозуміти як сприйняття читацької точки зору: він, по суті, запитує, який показник помилкового виявлення (FDR) можна очікувати, читаючи наукову літературу, і це означає, який очікуваний FDR, коли не було здійснено численних коригувань порівняння. При проведенні декількох статистичних тестів в одному дослідженні, наприклад, в одному документі, можна враховувати кілька порівнянь. Але ніхто ніколи не налаштовується на багаторазове порівняння у різних роботах .

Якщо ви фактично контролюєте FDR, наприклад, дотримуючись процедури Бенджаміні-Хохберга (BH), це буде контролюватися. Проблема полягає в тому, що запуск процедури БГ окремо у кожному дослідженні не гарантує загального контролю FDR.

Чи можна сміливо припускати, що в перспективі, якщо я роблю такий аналіз регулярно, FDR не на , а нижче , тому що я використовував Бенджаміні-Хохберга?5 %30%5%

Ні . Якщо ви використовуєте процедуру BH в кожній роботі, але незалежно один від одного в кожному з ваших робіт, то ви можете істотно інтерпретувати BH-скориговані -значення як нормальні -значення, і що Колхаун говорить по- , як і раніше застосовується.пpp


Загальні зауваження

Відповідь на запитання Колкхуна про очікуваний FDR важко дати, оскільки це залежить від різних припущень. Якщо, наприклад, всі нульові гіпотези є істинними, то FDR становитиме (тобто всі "значущі" висновки будуть статистичними флюками). І якщо всі нулі насправді помилкові, то FDR буде нульовим. Таким чином, FDR залежить від частки справжніх нулів, і це те, що було зовнішньо оцінене чи здогадане, щоб оцінити FDR. Colquhoun наводить деякі аргументи на користь кількості , але ця оцінка дуже чутлива до припущень.30 %100%30%

Я вважаю, що папір є в основному розумним, але мені не подобається, що деякі вимоги звучать занадто сміливо. Наприклад, перше речення реферату:

Якщо ви використовуєте щоб припустити, що ви зробили відкриття, ви будете помилятися принаймні в часу.30 %p=0,0530%

Це сформульовано занадто сильно і насправді може ввести в оману.


Зрозуміло, я лише швидко проглянув папір, але мені здається, що він по суті просто повторює відоме уявлення про те, що в великих розмірах вибірки легко знайти помилкові ефекти (наприклад, малюнок 1). Що не означає, що це не має сенсу, а я вважаю, що він повинен мати іншу (і менш сміливо заявлену) інтерпретацію, ніж автор.
Райан Сіммонс

1
Я не впевнений, чому @RyanSimmons каже, що я «по суті просто повторював відоме уявлення про те, що у великих розмірах вибірки легко знайти помилкові ефекти». Це не мало нічого спільного з великими розмірами зразків! Я дуже вітаю пояснення того, чому він вважає, що документ повинен мати "іншу (і менш сміливо заявлену) інтерпретацію".
Девід Колкхун

"Але ніхто ніколи не налаштовується на багаторазове порівняння між документами. Це також було б неможливо зробити". Я подумав, що однією з переваг помилкових коригувань швидкості виявлення перед коригуванням частоти помилок у сімейній родині є те, що хоча останні вимагають визначення сім'ї , перше можна масштабувати через довільну кількість порівнянь?
Олексій

pαp

Ну, те, що ви описуєте, звичайно, не є багаторазовою процедурою порівняння. Однак, використовуючи методи коригування на основі FDR на, скажімо, 5 тестах, а потім додаючи ще 20 до цього набору 10 та виконуючи той самий метод, знову зберігається ймовірність відхилення за FDR, але ці ймовірності відхилення змінюються під FWER. Налаштування Бонферроні Данна є досить драматичним прикладом.
Олексій

12

Бенджаміні та Хохберг визначають частоту помилкових виявлень так само, як і я, як частку позитивних тестів, які є помилковими. Отже, якщо ви використовуєте їх процедуру для декількох порівнянь, ви правильно контролюєте FDR. Однак варто зазначити, що варіантів методу БХ існує досить багато. Семінари Бенджаміні в Берклі проходять на Youtube, і їх варто переглянути:

Я не впевнений, чому @amoeba каже: "Це сформульовано занадто сильно і насправді може ввести в оману". Мені було б цікаво дізнатися, чому він / вона думає про це. Найбільш переконливий аргумент випливає з імітованих t-тестів (розділ 6). Це імітує те, що майже кожен робить на практиці, і це свідчить про те, що якщо ви спостерігаєте Р близько 0,047 і заявляєте, що зробили відкриття, ви будете помилятися щонайменше 26% часу. Що може піти не так?

Звичайно, я не повинен описувати це як мінімум. Це ви отримуєте, якщо припустити, що існує 50% шансів на те, що вони матимуть реальний ефект. Звичайно, якщо ви припускаєте, що більшість ваших гіпотез заздалегідь правильні, то ви можете отримати менший FDR, ніж 26%, але чи можете ви уявити веселість, яка б вітала твердження, що ви зробили відкриття на основі припущення що ви були на 90% впевнені в тому, що ваш висновок буде правдивим. 26% - це мінімальний FDR, враховуючи, що це не є розумною підставою для висновку припускати будь-яку попередню ймовірність, що перевищує 0,5.

Зважаючи на те, що зачаття часто не витримують тестування, цілком можливо, що існує лише 10% шансів на те, що будь-яка конкретна гіпотеза буде істинною, і в такому випадку FDR буде катастрофічним 76%.

Це правда, що все це залежить від нульової гіпотези, оскільки різниця нульова (так звана точка нуля). Інший вибір може дати різні результати. Але суть нуля - це те, що майже кожен використовує в реальному житті (хоча може і не усвідомлювати цього). Крім того, мені здається, що нульова точка є цілком відповідною річчю. Іноді заперечують, що справжні відмінності ніколи не бувають абсолютно нульовими. Я не погоджуюсь. Ми хочемо сказати, чи не відрізняються наші результати від випадку, коли обидві групи отримують однакове лікування, тому справжня різниця точно дорівнює нулю. Якщо ми вирішимо, що дані не сумісні з цим видом, ми продовжуємо оцінювати розмір ефекту. і в цей момент ми робимо окреме судження про те, чи є ефект, хоча і справжній, досить великий, щоб бути важливим на практиці.Блог Дебори Майо .


@amoeba Дякую за вашу відповідь

Що обговорюється в блозі Майо, це здебільшого, що Майо не згоден зі мною, хоча вона не зрозуміла, чому, принаймні, для мене). Стівен Сенн правильно вказує, що ви можете отримати іншу відповідь, якщо постулювати інший попередній розподіл. Мені здається, це цікаво лише суб'єктивним байєсам.

Це, безумовно, не має значення для повсякденної практики, яка завжди сприймає нуль. І як я пояснив, мені здається, що це цілком розумна справа.

Багато професійних статистиків дійшли висновків так само, як і мої. Спробуйте Sellke & Berger та Valen Johnson (реф. У моїй роботі). У моїх претензіях немає нічого дуже суперечливого (або дуже оригінального).

Ваша інша думка, щодо припущення 0,5 раніше, мені не здається припущенням взагалі. Як я пояснював вище, все, що перевищує 0,5, на практиці буде неприйнятним. І все, що нижче 0,5, робить показник помилкового виявлення ще вищим (наприклад, 76%, якщо попереднє - 0,1). Тому цілком розумно сказати, що 26% - це мінімальний показник помилкового виявлення, який ви можете очікувати, якщо спостерігати P = 0,047 в одному експерименті.


Я більше замислювався над цим питанням. Моє визначення FDR те саме, що і Бенджаміні - частка позитивних тестів, які є помилковими. Але воно застосовується до зовсім іншої проблеми, інтерпретації єдиного тесту. З огляду, можливо, було б краще, якби я вибрав інший термін.

Що стосується одного тесту, B&H залишає значення P незмінним, тому це нічого не говорить про помилковий показник виявлення в тому сенсі, як я використовую цей термін.


так, звичайно, ти маєш рацію. Benjamini & Hochberg та інші люди, які працюють над кількома порівняннями, прагнуть лише виправити рівень помилок типу 1. Таким чином, вони отримують "правильне" значення P. Це те саме, що і будь-яке інше значення P. У своєму останньому документі я змінив назву з FDR на False Positive Risk (FPR), щоб уникнути цього непорозуміння.

Ми також написали веб-додаток для виконання деяких розрахунків (помітивши, що мало хто завантажує надані нами сценарії R). Це на https://davidcolquhoun.shinyapps.io/3-calcs-final/ Всі думки про itare вітаються (спочатку прочитайте вкладку Примітки).

PS Зараз веб-калькулятор має новий (постійний, я сподіваюся) на веб-сайті http://fpr-calc.ucl.ac.uk/ Shiny.io простий у використанні, але дуже дорогий, якщо хтось насправді використовує додаток :-(


Я повернувся до цієї дискусії, тепер, коли моя друга праця на цю тему ось-ось з'явиться у Відкритій науці Королівського суспільства. Це за адресою https://www.biorxiv.org/content/early/2017/08/07/144337

Я усвідомлюю, що найбільшою помилкою, яку я зробив у першій статті, було використання терміна "помилковий показник виявлення (FDR)". У новій роботі я роблю більш чітко, що я нічого не кажу про проблему численних порівнянь. Я маю справу лише з питанням, як інтерпретувати значення Р, яке спостерігається в одному об'єктивному тесті.

В останній версії я посилаюсь на ймовірність того, що результат є хибним позитивним ризиком (FPR), а не FDR, в надії зменшити плутанину. Я також виступаю за зворотний байєсівський підхід - уточнюйте попередню ймовірність, яка буде потрібна для забезпечення ПНР, скажімо, 5%. Якщо ви спостерігаєте P = 0,05, це дорівнює 0,87. Іншими словами, ви повинні бути майже (87%) впевнені, що був справжній ефект, перш ніж зробити експеримент, щоб досягти FPR в 5% (у що більшість людей все ще вважають, помилково, p = 0,05 означає).


Шановний Девід, ласкаво просимо до CrossValided і дякуємо за приєднання! Схоже, ми згодні з початковим питанням @ січня: FDR може контролюватися лише загальною процедурою в БГ; якщо БГ застосовується в кожному документі окремо, то ваші аргументи все ще застосовуються. Якщо так, це вирішує початкове питання. Щодо мого коментаря щодо ваших "занадто сильних" формулювань: прочитавши 147 коментарів у блозі Майо, я вагаюся розпочати ще одну дискусію. Як я писав, я здебільшого погоджуюся з вашим документом, і мої заперечення стосувалися лише деяких формулювань. [продовження]
амеба каже: Відновити Моніку

1
[...] Перше речення в рефераті є "занадто сильним" саме з наведених тут причин: наприклад, воно передбачає нульову точку і передбачає 0,5 раніше, але звучить так, ніби воно нічого не передбачає (але я розумію, що ви намагався бути провокаційним). Величезна дискусія в блозі Майо показує, що багато людей не згодні з тим, що ці припущення є розумними для фактичної наукової практики. У мене теж є свої заперечення, але я згоден з вами, що ці припущення можуть точно описувати деякі наукові галузі. І якщо так, у цих полів є велика проблема, так.
амеба каже, що повернеться до Моніки

2

Велика частина плутанини полягає в тому, що, незважаючи на його зауваження, що тут суперечать, Колькхун НЕ визначає FDR так само, як це робить Бенджаміні-Хохберг. Прикро, що Колкхун намагався ввести термін, не попередньо перевіривши, щоб переконатися, що термін ще не мав чітко встановленого, іншого визначення. Що ще гірше, Colquhoun визначив FDR саме так, як звичайні FDR часто трактували неправильно.

У своїй відповіді тут Colquhoun визначає FDR як "частку позитивних тестів, які є помилковими". Це схоже на те, що Бенджаміні-Хохберг визначають як FDP (хибна пропорція виявлення, не плутати з частотою помилкового виявлення). Бенджаміні-Хохберг визначає FDR як ОЧАКОВАНУ ЦІННУ FDP, з особливим умовою, що FDP вважається рівним 0, коли немає позитивних тестів (умова, яке може зробити FDR рівним FWER, коли всі нулі справжні, і уникає невизначених значень через ділення на нуль).

Щоб уникнути плутанини, я пропоную не турбуватися про деталі в документі Colquhoun, а замість цього просто взяти до душі велику картину (яку також зробили безліч інших), що рівень альфа безпосередньо не відповідає пропорції значущих тестів, які - це помилки типу I (чи ми говоримо про суттєві тести в одному дослідженні або в кількох дослідженнях разом). Ця пропорція залежить не лише від альфа, але й від сили та частки перевірених нульових гіпотез, що відповідають дійсності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.