Як окремий дослідник повинен думати про помилковий показник виявлення?


30

Я намагався обернути голову навколо того, як частота помилкового виявлення (FDR) повинна повідомляти висновки окремого дослідника. Наприклад, якщо ваше дослідження недостатньо, чи варто знижувати результати, навіть якщо вони значущі при ? Примітка. Я говорю про FDR в контексті вивчення результатів численних досліджень у сукупності, а не як про метод багаторазових виправлень.α=.05

Здійснюючи (можливо, щедро) припущення, що перевірених гіпотез насправді є правдою, FDR є функцією як коефіцієнтів помилок I типу, так і типу II:.5

FDR=αα+1β.

Цілком очевидно, що якщо дослідження є недостатньо підданим , ми не повинні довіряти результатам, навіть якщо вони є вагомими, настільки ж, як і результатам дослідження, що має належну силу. Отже, як би сказали деякі статистики , є обставини, за яких, "у перспективі" ми можемо опублікувати багато вагомих результатів, які є помилковими, якщо дотримуватися традиційних вказівок. Якщо комплекс досліджень характеризується послідовно недостатніми дослідженнями (наприклад, література про взаємодію кандидатських генів навколишнього середовища попереднього десятиліття ), можна підозрювати навіть тиражувані значні результати.×

Застосування пакетів R extrafont, ggplot2і xkcd, я думаю , що це може бути корисно осмислюється як питання про перспективу: Вагомий результат ...

Не так точно ...

З огляду на цю інформацію, що повинен робити далі окремий дослідник ? Якщо я здогадуюсь, яким повинен бути розмір ефекту, який я вивчаю (і, отже, оцінка , з огляду на мій розмір вибірки), чи повинен я відрегулювати рівень α до FDR = 0,05? Чи повинен я публікувати результати на рівні α = .05, навіть якщо мої дослідження недостатньо отримані та залишати розгляд FDR споживачам літератури?1βαα=.05

Я знаю, що це тема, яку часто обговорювали як на цьому веб-сайті, так і в статистичній літературі, але я не можу знайти консенсусу думок з цього питання.


EDIT: У відповідь на коментар @ amoeba, FDR може бути отриманий із стандартної таблиці обставин помилок типу I / типу II (вибачте за її неподобство):

|                            |Finding is significant |Finding is insignificant |
|:---------------------------|:----------------------|:------------------------|
|Finding is false in reality |alpha                  |1 - alpha                |
|Finding is true in reality  |1 - beta               |beta                     |

Отже, якщо нам представлено значну знахідку (стовпець 1), то ймовірність того, що вона насправді помилкова, є альфа над сумою стовпця.

(1β)

FDR=α(1prior)α(1prior)+(1β)prior

Це може не дати точної відповіді на ваше запитання, але ви можете знайти натхнення в цьому тексті.
JohnRos

1
Папір Девіда Колхуона, на яку ви посилаєтесь, нещодавно обговорювався тут (коли @DavidColquhoun приєднався до обговорення), вам може бути цікаво поглянути.
амеба каже, що повернеться в Моніку

2
αβ

2
p=0.5pp=0prior=11

1
α

Відповіді:


6

p

Натомість важливо забезпечити доступність усіх досліджень, не враховуючи рівня потужності або значних результатів. Насправді, шкідлива звичка публікувати лише значні та приховувати несуттєві результати призводить до упередженості публікації та пошкоджує загальний облік наукових результатів.

Таким чином, окремий дослідник повинен провести дослідження відтворюваним способом, зберігати всі записи та реєструвати всі експериментальні процедури, навіть якщо такі дані не запитують у видавничих журналах. Він не повинен надто турбуватися про низьку потужність. Навіть неінформативний результат (= нульова гіпотеза не відхилений) додав би більше оцінок для подальших досліджень, доки можна собі дозволити достатню якість самих даних.

ppp


Хорсте, ти, здається, відповідаєш на інше запитання, ніж тобі було задано.
Олексій

1
Зауважте, що питання про FDR між дослідженнями, а не в межах. Це передбачає якийсь байєсівський підхід, щоб мати прийнятну загальну кількість правильних рішень. У моїй відповіді підкреслюється, що загальне судження швидше робиться шляхом агрегування даних дослідження та оцінок, а не рішень, тому питання вирішується шляхом створення величезного "віртуального дослідження", доки дані (а не рішення) окремих досліджень є достовірними.
Хорст Грюнбуш


5

Це насправді глибоке філософське питання. Я сам дослідник і певний час думав над цим. Перш ніж відповісти, давайте перевіримо, що саме є помилковим виявленням.

FDR проти P P - це просто міра ймовірності сказати, що є різниця, коли взагалі немає різниці і не враховує потужність. З іншого боку, FDR враховує владу. Однак, щоб розрахувати FDR, ми повинні зробити припущення: яка ймовірність того, що ми отримаємо справжній позитивний результат? Це те, до чого ми ніколи не матимемо доступу, за винятком сильно надуманих обставин. Я фактично говорив про це нещодавно під час семінару, який я провів. Слайди ви можете знайти тут .

Ось це фігура з Девіда Colquhoun в роботі по темі:

Calquhoun 2014

Швидкість виявлення помилок обчислюється діленням кількості помилкових позитивних результатів на суму справжніх і хибних позитивних (наприклад, 495 / (80 + 495) х 100% = 86%!

Ще трохи на P

Погляньте уважно на слайди з моєї лекції. Я обговорював той факт, що значення P виходять із розподілу. Що означає, що завжди буде шанс, що ви знайдете помилковий позитив. Тому статистичну значимість не слід розглядати як абсолютну правду. Я стверджую, що щось, що є статистично значущим, слід трактувати так: "Гей, тут може бути щось цікаве, я не впевнений, хтось перевірить двічі!" Отже, фундаментальне поняття відтворюваності в дослідженні!

Отже ... що ми робимо? Ну, цікавий момент щодо наведеної вище фігури та мого аналізу P та FDRs полягає в тому, що єдиний спосіб, коли ми можемо досягти чіткого розуміння, - це через 1) відтворюваність та 2) опублікування всіх результатів. Це включає негативні результати (навіть якщо негативні результати важко інтерпретувати). Однак висновки, які ми робимо на основі результатів, повинні бути відповідними. На жаль, багато читачів та дослідників не повністю розуміють поняття Р та ФДР. Я вважаю, що відповідальність за читачів є належним чином проаналізувати результати ... а це означає, що в кінцевому рахунку тягар лягає на плечі освітян. Зрештою, значення P 0,000000001 є безглуздим, якщо "поширеність" (див. Рисунок вище) дорівнює 0 (у такому випадку показник помилкового виявлення становив би 100%).

Як дослідник видавничої справи, будьте обережні, щоб повністю зрозуміти свої результати та висловлювати претензії лише настільки сильно, наскільки ви хочете. Якщо виявиться, що FDR для вашого конкретного дослідження становить 86% (як на прикладі вище), то вам слід бути дуже обережними щодо своїх інтерпретацій. З іншого боку, якщо FDR досить малий для вашого комфорту .... все ж будьте уважні до своїх інтерпретацій.

Сподіваюся, тут все було зрозуміло. Це дуже важлива концепція, і я радий, що ви підняли дискусію. Повідомте мене, якщо у вас є якісь питання / проблеми / тощо.


1
@Alexis Не існує такого поняття, як переборене дослідження! Поки помічається розмір ефекту, не може бути шкоди, коли можна буде більш точно визначити розмір ефекту, провівши дослідження з більшим розміром вибірки. Поняття «перенапружений», як мені здається, пов'язане з порожнім уявленням про те, що можна робити корисні умовиводи, переглядаючи значення P, не дивлячись на спостережувані дані.
Майкл Лев

1
@MichaelLew: Ви маєте рацію, що проблема перенапруги може бути (частково) вирішена, якщо ви завжди враховуєте оцінений розмір ефекту разом із значенням p. Однак це дещо перешкоджає меті p-значень: Зв’язування оцінки ефекту з результатами бінарних тестів "ефект присутній / немає", таким, що коефіцієнт помилок типу I є коректним. Крім того, ваше судження про те, яким може бути відповідний розмір ефекту, може змінюватися, коли ви бачите p-значення. Тому насправді найкраще вирішити це питання, попередньо уточнивши відповідний діапазон ефектів заздалегідь, а згодом порівняти його з дослідженням CI, як запропонував Алексіс.
Хорст Грюнбуш

1
θ

1
До певної міри ... Я строго говорив з точки зору статистичного висновку , тоді як ви більше говорите про логіку дизайну дослідження та онтологію отримання наукових знань. З цього приводу я вважаю, що позитивні результати , які не трактуються настільки ж ретельним протоколом догляду та ін., Настільки ж ймовірні, як помилкові результати. Не всі явища Всесвіту піддаються вивченню поодиноко (наприклад, здоров'я людини та населення одночасно є хімічними, соціальними, поведінковими тощо), тому онтологічні невизначеності повинні супроводжувати дослідження таких складних систем.
Олексій

2
@ HorstGrünbusch Я не вважаю, що оригінальне запитання задано у гібридному контексті, оскільки він стосується альфа- та бета-версій, а не P-значень. Однак відповідь юзернознавства, безумовно, потребує ретельної повторної роботи, щоб розмістити його виключно в рамках Неймана і Пірсона або в рамках тестування значимості. Помилкові показники виявлення дійсно належать лише першим.
Майкл Лев

3

Щоб зрозуміти взаємозв'язки, я створив цей графік FDR як функцію попередньої ймовірності для різних повноважень (з альфа = 0,05). Зверніть увагу на цей графік, і рівняння @Buckminster обчислює FDR для всіх результатів з P менше, ніж альфа. Графік виглядав би інакше, якби ви вважали лише значення Р дуже близькими до значення Р, яке ви спостерігали в одному дослідженні.


2
і ось версія програми Shiny (трохи інша): buckminster.shinyapps.io/FalseDiscoveryRate
Річард Бордер

1

Запропонувати публікацію - це рішення. Я думаю, що варто вивчити, які переваги та витрати пов'язані з цим рішенням.

1) Академічне середовище загалом підштовхує дослідників публікувати більше, вважаючи, що різні рейтинги публікацій впливатимуть і на цей запис. Ми можемо припустити, що більш престижні журнали можуть мати більш надійну перевірку якості (я сподіваюся, що так).

2) Можуть виникнути соціальні витрати, пов'язані із занадто великим виробництвом видань. Ці ресурси можна краще використовувати деінде, як у прикладних дослідженнях, без публікації результатів. Нещодавно вийшла публікація, що багато публікацій не є важливими як джерела, оскільки велика кількість нових публікацій настільки велика ... :)

http://arxiv.org/pdf/1503.01881v1.pdf

Для того, щоб окремий дослідник номер один змусив публікувати більше, і я думаю, що повинні бути інституціоналізовані перевірки якості, які не залежать від окремих народів, щоб підтримувати якість на прийнятому рівні.

У будь-якому випадку значення ваших параметрів не є фактами, вони повинні бути задані значеннями, враховуючи різні витрати та вигоди, пов'язані з кількістю опублікованих результатів, коли результати справді і / або помилково значущі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.