Чи зробили недостатньо досліджені дослідження ймовірність помилкових позитивних результатів?


23

Це питання вже задавались тут і тут, але я не думаю, що відповіді стосуються цього питання безпосередньо.

Чи зробили недостатньо досліджені дослідження ймовірність помилкових позитивних результатів? Деякі статті новин висловлюють це твердження. Для прикладу :

Низька статистична потужність - погана новина. Дослідження з недостатнім рівнем ймовірності пропускають справжні наслідки, і як група вони, швидше за все, включають більшу частку помилкових позитивних результатів - тобто ефектів, що досягають статистичної значущості, хоча вони не є реальними.

Як я розумію, потужність тесту можна збільшити на:

  • збільшення розміру вибірки
  • мають більший розмір ефекту
  • підвищення рівня значущості

Припускаючи, що ми не хочемо змінювати рівень значущості, я вважаю, що цитата вище стосується зміни розміру вибірки. Однак я не бачу, як зменшення вибірки повинно збільшити кількість помилкових позитивних результатів. Простіше кажучи, зниження потужності дослідження збільшує шанси на помилкові негативи, що відповідає на питання:

P(failure to reject H0|H0 is false)

Навпаки, помилкові позитиви відповідають на питання:

П(відкинути Н0|Н0 правда)

Обидва - це різні питання, оскільки умови обумовлені. Влада (навпаки) пов'язана з помилковими негативами, але не з помилковими позитивами. Я щось пропускаю?


4
Це не хибнопозитивна ставка, яка залежить від статистичної потужності, а "швидкість виявлення помилок":П(Н0правда|відкинутиН0)
Джейк Вестфаль

2
Так, це, здається, є правильним тлумаченням заяви у статті Wired.
Роберт Сміт

Відповіді:


30

Ви вірні, що розмір вибірки впливає на потужність (тобто помилка 1 типу II), але не помилка I типу. Поширене непорозуміння, що значення p як таке (інтерпретоване правильно) є менш надійним або дійсним, коли розмір вибірки невеликий - дуже розважальна стаття Фрістона 2012 року сприймає це [1].

Незважаючи на це, проблеми з недооціненими дослідженнями справжні, і я б сказала, що цитата є значною мірою правильною, лише дещо неточною у її формулюванні.

Основна проблема недооцінених досліджень полягає в тому, що, хоча частота помилкових позитивних результатів (помилка I типу) у тестах гіпотез є фіксованою, швидкість справжніх позитивних результатів (потужності) знижується. Отже, позитивний (= значущий) результат є меншим за ймовірність бути справжнім позитивом у недостатньому дослідженні. Ця думка виражена у помилковій швидкості виявлення [2], див. Також [3]. Це здається, на що йдеться у цитаті.

Додатковим питанням, яке часто називають щодо недооцінених досліджень, є те, що вони призводять до завищених розмірів ефекту. Причини полягають у тому, що а) при меншій потужності ваші оцінки справжніх ефектів стануть більш змінними (стохастичними) навколо їх справжнього значення; б) лише найсильніші з цих ефектів пройдуть фільтр значущості, коли потужність буде низькою. Слід додати, що це проблема звітності, яку можна легко усунути, обговоривши та повідомивши про всі, а не лише суттєві наслідки.

Нарешті, важливим практичним питанням недооцінених досліджень є те, що низька потужність збільшує статистичні питання (наприклад, зміщення оцінок), а також спокусу розібратися зі змінними та подібними тактиками p-хакерства. Використання цих "ступенів свободи дослідника" є найбільш ефективним, коли потужність низька, і ЦЕ може врешті-решт збільшити помилку I типу, див., Наприклад, [4].

З усіх цих причин я був би дуже скептично сприйнятий недостатньо вивченим.

[1] Фрістон, К. (2012) Десять іронічних правил для нестатистичних рецензентів. NeuroImage, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Кнопка, KS; Іоанідіс, JPA; Мокриш, С .; Носек, Б.А .; Кремінь, Дж .; Robinson, ESJ & Munafo, MR (2013) Відключення електроенергії: чому невеликий розмір вибірки підриває надійність нейронауки. Нат. Преподобний Невросі., 14, 365-376

[4] Сіммонс, Дж. П.; Nelson, LD & Simonsohn, U. (2011) Хибнопозитивна психологія: нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити щось як важливе. Psychol Sci., 22, 1359-1366.


Дякую. Відмінні посилання. Для повноти [1] можна ознайомитися тут, а [3] - тут . Якщо ви говорите про помилковий показник виявлення, чи впевнені ви, що це правильна концепція? Виходячи з [3], можливо, ви мали на увазі позитивне прогнозне значення (ППВ), в якому недостатньо сильні дослідження мають нижчий показник ППВ (тобто справжні позитивні результати не такі часті, як це повинно бути у високопотужному дослідженні). доповнення ППВ.
Роберт Сміт

Як я це розумію, ці поняття ідентичні, PPV = 1-FDR. Я вважаю за краще використання FDR, оскільки вважаю це слово інтуїтивно зрозумілішим.
Флоріан Хартіг


2
Тал Ярконі вказує на всі речі неправильні щодо статті про Фрістона тут .
jona

1
@jona - Я думаю, що Тал Ярконі викликає кілька хороших моментів у своєму дописі в блозі. Я здогадуюсь, що підсумок 1 речення буде "проблемою з низькою потужністю". Це саме те, що я говорю вище. Я все ще вважаю карикатуру Фрістона на коментарях рецензентів смішною, тому що так трапляється, що рецензенти "вважають розмір вибірки занадто низьким" без чіткого аргументу, який передбачає обчислення потужності.
Флоріан Хартіг

6

Залежно від того, як ви на це дивитесь, низька потужність може збільшити помилково позитивні показники в заданих сценаріях.

Розглянемо наступне: дослідник тестує лікування. Якщо тест повернеться як незначний, вони відмовляються від нього і переходять до наступного лікування. Якщо тест повернеться значним, вони публікують його. Давайте також врахуємо, що дослідник перевірить деякі методи лікування, а деякі - не. Якщо дослідник має високу потужність (звичайно, посилаючись на випадок, коли вони випробовують лікування, яке працює), вони, швидше за все, припиняться, як тільки перевіряють ефективне лікування. З іншого боку, при малій потужності вони, ймовірно, втратять справжній ефект лікування та перейдуть до інших методів лікування. Чим більше нульових методів лікування вони перевіряють, тим більше шансів зробити помилку типу I (цей дослідник не враховує кількох порівнянь). У випадку низької потужності, вони, як очікується, перевірять ще багато нульових методів лікування,

Ви можете сказати: «ну це просто дослідник, який зловживає кількома порівняннями!». Ну, це може бути правдою, але саме так багато досліджень проводиться в наші дні. Через саме ці причини я особисто мало вірю в опубліковану роботу, якщо вона не має достатньо великого розміру вибірки, щоб дослідник не міг дозволити собі повторити один і той же експеримент велику кількість разів.


1
Дякую. Навіть ігноруючи випадок численних порівнянь (без належних виправлень), я думаю, ви описуєте інший екземпляр PPV, як описано тут . Я не можу вставити абзац, але він починається з ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Роберт Сміт

1
Ага так, це дуже близько описує те, про що я мав на увазі. Найменша відмінність полягає в тому, що я кажу: "В даній експериментальній процедурі наявність індивідуальної низької потужності при кожному тесті справжнього ефекту збільшує шанси на використання помилки типу I у всій нашій експериментальній процедурі ". Це, звичайно, відрізняється від підвищення рівня помилок типу I у кожному статистичному тесті. Крім того, це лише в найбільш технічних почуттях, відмінних від ППВ. Але це єдиний спосіб, коли вислів ЗМІ «низька потужність збільшує помилки типу I» має сенс (і я думаю, що це має багато сенсу).
Кліф АВ

4

Мала потужність не може вплинути на рівень помилок типу 1, але це може вплинути на частку опублікованих результатів, які є помилками типу 1.

Причина полягає в тому, що низька потужність знижує шанси на правильне відхилення H0 (помилка типу 2), але не шанси на помилкове відхилення H0 (помилка типу 1).

Припустимо, на секунду, що є дві літератури ... одна проводиться з дуже низькою потужністю - біля нуля -, а друга проводиться з достатньою потужністю. В обох літературах ви можете припустити, що коли H0 є хибним, ви все одно отримаєте помилкові позитиви деякий час (наприклад, 5% для альфа = .05). Якщо припустити, що дослідники не завжди коректні у своїх гіпотезах, ми можемо припустити, що обидві літератури повинні мати аналогічне число помилок типу 1, хороша потужність чи ні. Це пояснюється тим, що потужність помилок типу 1 не впливає на потужність, як говорили інші.

Однак у літературі з низькою потужністю ви також мали б багато помилок типу 2. Іншими словами, література з низькою потужністю повинна ЛІКУВАТИ правильні відхилення H0, роблячи помилки типу 1 більшою часткою літератури. У літературі з високою потужністю ви повинні мати суміш правильних і неправильних відхилень H0.

Отже, чи збільшується низька потужність помилок типу 1? Ні. Однак це ускладнює пошук справжніх ефектів, що робить помилки типу 1 більшою часткою опублікованих результатів.


1
Дякую. А як щодо ППВ? У статті, на яку посилається Флоріан Хартіг, є твердження, що при помилці типу I, чим менша потужність, тим нижчий показник PPV. Якщо показник PPV нижчий, а це означає, що кількість справжніх заявлених відкриттів менша, то кількість помилкових заявлених відкриттів (помилкових позитивних результатів) має збільшуватися.
Роберт Сміт

0

На додаток до інших відповідей, дослідження, як правило, недостатньо, коли розмір вибірки невеликий. Існує багато тестів, які є асимптотично справедливими та занадто оптимістичними чи консервативними для малих росіян.

Інші тести справедливі лише для невеликих розмірів вибірки, якщо дотримуються певні умови, але стають більш надійними при великому розмірі вибірки (наприклад, t-тест).

В обох цих випадках невеликий розмір вибірки та незадоволене припущення можуть призвести до підвищення рівня помилок типу I. Обидві ці ситуації трапляються досить часто, що я вважаю справжньою відповіддю на ваше запитання: не в теорії, а на практиці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.