Що означає перенапруження дослідження?


11

Що означає перенапруження дослідження?

Моє враження полягає в тому, що це означає, що розміри вибірки настільки великі, що ви маєте змогу визначати мізерні розміри ефектів. Ці розміри ефектів, можливо, настільки малі, що вони швидше є наслідком незначних упереджень у процесі вибірки, ніж (не обов'язково прямого) причинного зв'язку між змінними.

Це правильна інтуїція? Якщо це так, я не бачу, у чому полягає велика справа, якщо результати інтерпретуються в такому світлі, і ви вручну перевіряєте і чи оцінений розмір ефекту достатньо великий, щоб бути "значущим" чи ні.

Я щось пропускаю? Чи є краща рекомендація щодо того, що робити в цьому сценарії?


Звучить точно як моє інтуїтивне розуміння цього терміна.
Генрік

Відповіді:


11

Я думаю, що ваше трактування невірно.

Ви говорите: "Ці розміри ефектів, можливо, настільки малі, що є більш імовірними наслідками незначних ухилів у процесі вибірки, ніж (не обов'язково прямого) причинного зв'язку між змінними", що, мабуть, означає, що значення P у "перенапруженні" дослідження - це не та сама річ, як значення P від ​​"правильного" живлення дослідження. Це неправильно. В обох випадках значення Р - це ймовірність отримання даних настільки екстремальних, як спостережувані, або більш екстремальних, якщо нульова гіпотеза відповідає дійсності.

Якщо ви віддаєте перевагу підходу Неймана-Пірсона, частота помилково-позитивних помилок, отриманих в результаті дослідження надмірного живлення, є такою ж, як і у дослідження, що працює на належному рівні, якщо для обох використовується однакове значення альфа.

Різниця в інтерпретації, яка необхідна, полягає в тому, що існує різний взаємозв'язок між статистичною значимістю та науковою значимістю для перенапружених досліджень. Насправді, перенапружене дослідження дасть велику ймовірність отримання значущості, хоча ефект, як ви кажете, мізерний, а тому сумнівний.

До тих пір, поки результати "надмірного харчування" будуть правильно інтерпретовані (а довірчі інтервали для розміру ефекту допомагають такому тлумаченню), немає статистичної проблеми з "перенапруженим" дослідженням. У цьому світлі єдиними критеріями, за якими дослідження може бути фактично переоцінене, є проблеми етики та розподілу ресурсів, підняті в інших відповідях.


Дякую, це дуже інформативно. Я розумію, що визначення р-значення не змінюється. Звичайно, зі статистичної точки зору, частота помилок I типу не збільшується.
Френк Баррі

1
За визначенням ми фіксуємо показник помилок типу I при встановленні порогу значення p. Однак, схоже, різниця між "статистичним" та "практичним" значенням полягає саме тут. Коли розмір вибірки здатний виявити відмінності, набагато точніші, ніж очікуваний розмір ефекту, різниця, що є статистично чітко вираженою, практично не має сенсу (і з точки зору "кінцевого споживача" це фактично є "помилковим позитивом", навіть якщо це не статистичний). Однак, як ви кажете, це починає виходити за межі сфери статистики.
Френк Баррі

1
тобто я думаю, що я згоден - "різниця в інтерпретації, яка потрібна, полягає в тому, що існує різний взаємозв'язок між статистичною значимістю та науковою значимістю"
Френк Баррі

4

У медичних дослідженнях випробування можуть бути неетичними, якщо вони набирають занадто багато пацієнтів. Наприклад, якщо мета полягає у вирішенні питання, яке лікування краще, то більше не етично лікувати пацієнтів із гіршим лікуванням після того, як було встановлено, що воно є неповноцінним. Збільшення розміру вибірки, звичайно, дасть точнішу оцінку розміру ефекту, але, можливо, доведеться зупинитися раніше, ніж з'являться наслідки факторів, таких як "незначні ухили в процесі вибірки".

Також може бути неетично витрачати державні гроші на достатньо підтверджені дослідження.


1

Все, що ви сказали, має сенс (хоча я не знаю, про яку "велику справу" ви маєте на увазі), і я це роблю. як ваша думка щодо розмірів ефекту на відміну від статистичної значущості. Ще одне врахування полягає в тому, що деякі дослідження вимагають виділення обмежених ресурсів для участі в кожному конкретному випадку, і тому не хотілося б переборщувати.


Вибачте, "велика справа" - це занадто багато редакційного коментаря. Питання про те, чи є це "більша угода", ніж я це вирішую, - це в основному питання про те, чи існують додаткові міркування, щодо яких я можу не знати.
Френк Баррі

0

Мій досвід походить з експериментів в режимі онлайн / в Інтернеті, де питання, як правило, є недостатнім дослідженням або вимірюванням неправильних речей. Але мені здається, що проведене дослідження забезпечує більш вузькі інтервали довіри, ніж порівнянні дослідження, менші р-значення та, можливо, різну дисперсію. Я думаю, що це може ускладнити порівняння подібних досліджень. Наприклад, якби я повторив дослідження з надмірною потужністю, використовуючи належну потужність, моє р-значення було б вищим, навіть якби я точно повторював ефект. Збільшений розмір вибірки може навіть зменшити мінливість або внести мінливість, якщо є інші люди, які можуть мати більший шанс проявитись у більшій вибірці.

Крім того, мої симуляції показують, що ефекти, окрім тих, що вас цікавлять, можуть набути значного значення при більшій вибірці. Отже, хоча p-значення правильно повідомляє вам про ймовірність того, що ваші результати справжні, вони можуть бути реальними з інших причин, ніж те, що ви думаєте, наприклад, комбінація випадкових випадків, деякий перехідний ефект, який ви не контролювали, і, можливо, деякі інші менший ефект, який ви ввели, не усвідомлюючи цього. Якщо дослідження лише трохи пересилено, ризик цього є низьким. Проблема часто полягає в тому, що важко дізнатися адекватну потужність, наприклад, якщо базові показники та мінімальний цільовий ефект є здогадами або виявляється відмінним від очікуваного.

Я також натрапив на статтю, яка стверджує, що занадто велика кількість зразка може зробити тест на корисність занадто чутливий до невідповідних відхилень, що призводить до потенційно контрінтуїтивних результатів.

Однак, я вважаю, що найкраще помилятися на стороні високої, а не малої потужності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.