Бенджаміні та Хохберг визначають частоту помилкових виявлень так само, як і я, як частку позитивних тестів, які є помилковими. Отже, якщо ви використовуєте їх процедуру для декількох порівнянь, ви правильно контролюєте FDR. Однак варто зазначити, що варіантів методу БХ існує досить багато. Семінари Бенджаміні в Берклі проходять на Youtube, і їх варто переглянути:
Я не впевнений, чому @amoeba каже: "Це сформульовано занадто сильно і насправді може ввести в оману". Мені було б цікаво дізнатися, чому він / вона думає про це. Найбільш переконливий аргумент випливає з імітованих t-тестів (розділ 6). Це імітує те, що майже кожен робить на практиці, і це свідчить про те, що якщо ви спостерігаєте Р близько 0,047 і заявляєте, що зробили відкриття, ви будете помилятися щонайменше 26% часу. Що може піти не так?
Звичайно, я не повинен описувати це як мінімум. Це ви отримуєте, якщо припустити, що існує 50% шансів на те, що вони матимуть реальний ефект. Звичайно, якщо ви припускаєте, що більшість ваших гіпотез заздалегідь правильні, то ви можете отримати менший FDR, ніж 26%, але чи можете ви уявити веселість, яка б вітала твердження, що ви зробили відкриття на основі припущення що ви були на 90% впевнені в тому, що ваш висновок буде правдивим. 26% - це мінімальний FDR, враховуючи, що це не є розумною підставою для висновку припускати будь-яку попередню ймовірність, що перевищує 0,5.
Зважаючи на те, що зачаття часто не витримують тестування, цілком можливо, що існує лише 10% шансів на те, що будь-яка конкретна гіпотеза буде істинною, і в такому випадку FDR буде катастрофічним 76%.
Це правда, що все це залежить від нульової гіпотези, оскільки різниця нульова (так звана точка нуля). Інший вибір може дати різні результати. Але суть нуля - це те, що майже кожен використовує в реальному житті (хоча може і не усвідомлювати цього). Крім того, мені здається, що нульова точка є цілком відповідною річчю. Іноді заперечують, що справжні відмінності ніколи не бувають абсолютно нульовими. Я не погоджуюсь. Ми хочемо сказати, чи не відрізняються наші результати від випадку, коли обидві групи отримують однакове лікування, тому справжня різниця точно дорівнює нулю. Якщо ми вирішимо, що дані не сумісні з цим видом, ми продовжуємо оцінювати розмір ефекту. і в цей момент ми робимо окреме судження про те, чи є ефект, хоча і справжній, досить великий, щоб бути важливим на практиці.Блог Дебори Майо .
@amoeba Дякую за вашу відповідь
Що обговорюється в блозі Майо, це здебільшого, що Майо не згоден зі мною, хоча вона не зрозуміла, чому, принаймні, для мене). Стівен Сенн правильно вказує, що ви можете отримати іншу відповідь, якщо постулювати інший попередній розподіл. Мені здається, це цікаво лише суб'єктивним байєсам.
Це, безумовно, не має значення для повсякденної практики, яка завжди сприймає нуль. І як я пояснив, мені здається, що це цілком розумна справа.
Багато професійних статистиків дійшли висновків так само, як і мої. Спробуйте Sellke & Berger та Valen Johnson (реф. У моїй роботі). У моїх претензіях немає нічого дуже суперечливого (або дуже оригінального).
Ваша інша думка, щодо припущення 0,5 раніше, мені не здається припущенням взагалі. Як я пояснював вище, все, що перевищує 0,5, на практиці буде неприйнятним. І все, що нижче 0,5, робить показник помилкового виявлення ще вищим (наприклад, 76%, якщо попереднє - 0,1). Тому цілком розумно сказати, що 26% - це мінімальний показник помилкового виявлення, який ви можете очікувати, якщо спостерігати P = 0,047 в одному експерименті.
Я більше замислювався над цим питанням. Моє визначення FDR те саме, що і Бенджаміні - частка позитивних тестів, які є помилковими. Але воно застосовується до зовсім іншої проблеми, інтерпретації єдиного тесту. З огляду, можливо, було б краще, якби я вибрав інший термін.
Що стосується одного тесту, B&H залишає значення P незмінним, тому це нічого не говорить про помилковий показник виявлення в тому сенсі, як я використовую цей термін.
так, звичайно, ти маєш рацію. Benjamini & Hochberg та інші люди, які працюють над кількома порівняннями, прагнуть лише виправити рівень помилок типу 1. Таким чином, вони отримують "правильне" значення P. Це те саме, що і будь-яке інше значення P. У своєму останньому документі я змінив назву з FDR на False Positive Risk (FPR), щоб уникнути цього непорозуміння.
Ми також написали веб-додаток для виконання деяких розрахунків (помітивши, що мало хто завантажує надані нами сценарії R). Це на https://davidcolquhoun.shinyapps.io/3-calcs-final/ Всі думки про itare вітаються (спочатку прочитайте вкладку Примітки).
PS Зараз веб-калькулятор має новий (постійний, я сподіваюся) на веб-сайті http://fpr-calc.ucl.ac.uk/
Shiny.io простий у використанні, але дуже дорогий, якщо хтось насправді використовує додаток :-(
Я повернувся до цієї дискусії, тепер, коли моя друга праця на цю тему ось-ось з'явиться у Відкритій науці Королівського суспільства. Це за адресою https://www.biorxiv.org/content/early/2017/08/07/144337
Я усвідомлюю, що найбільшою помилкою, яку я зробив у першій статті, було використання терміна "помилковий показник виявлення (FDR)". У новій роботі я роблю більш чітко, що я нічого не кажу про проблему численних порівнянь. Я маю справу лише з питанням, як інтерпретувати значення Р, яке спостерігається в одному об'єктивному тесті.
В останній версії я посилаюсь на ймовірність того, що результат є хибним позитивним ризиком (FPR), а не FDR, в надії зменшити плутанину. Я також виступаю за зворотний байєсівський підхід - уточнюйте попередню ймовірність, яка буде потрібна для забезпечення ПНР, скажімо, 5%. Якщо ви спостерігаєте P = 0,05, це дорівнює 0,87. Іншими словами, ви повинні бути майже (87%) впевнені, що був справжній ефект, перш ніж зробити експеримент, щоб досягти FPR в 5% (у що більшість людей все ще вважають, помилково, p = 0,05 означає).