Якщо кілька порівнянь є «запланованими», чи все-таки потрібно виправляти декілька порівнянь?

20

Я переглядаю статтю, яка виконала> 15 окремих тестів на площі 2x2 Chi. Я припустив, що їх потрібно виправити для кількох порівнянь, але вони відповіли, сказавши, що всі порівняння були заплановані, а тому це не потрібно.

Я вважаю, що це не повинно бути правильним, але я не можу знайти жодних ресурсів, які б чітко вказали, чи так це.

Хтось може в цьому допомогти?

Оновлення:

Дякуємо за всі ваші дуже корисні відповіді. У відповідь на запит @ gung про додаткову інформацію про дослідження та аналізи вони порівнюють дані підрахунку для двох типів учасників (студентів, не студентів) у двох умовах протягом трьох часових періодів. Кілька тестів на площі 2x2 Chi порівнюють кожен період часу, в кожній умові, для кожного типу учасника (якщо це має сенс; наприклад, студенти, умова 1, період часу 1 проти періоду часу 2), тому всі аналізи тестують ту саму гіпотезу .

hypothesis-testing multiple-comparisons

— DrJay
джерело

2

Багато людей, які проводять численні порівняння, планують зробити їх усі апріорі . Вони роблять це, тому що хочуть контролювати загальний рівень помилок типу I. У деяких ситуаціях може бути розумним не виправляти багаторазове порівняння, але це не лише питання планування зробити їх усі з самого початку.

— Glen_b -Встановити Моніку

3

Чи можете ви сказати трохи більше про дослідження, їхні дані та аналізи? Чи становить> 15 всі можливі порівняння, або лише невеликий%? Скільки у них даних? Наскільки правдоподібно, що всі гіпотези були апріорі? Чи всі вони значні? Чи незалежні тести у квадратику один від одного? Також розглянемо деякі питання, порушені у відповіді @ peuhp.

— gung - Відновіть Моніку

4

Оскільки "вони", ймовірно, зацікавлені у пошуку значних результатів, їх відповідь корисна. Тому на них лягає тягар, щоб продемонструвати, чому їхній підхід є законним, а не на вас, щоб показати, що це нелегітимно. Будь-яка спроба показати, що численними порівняннями виправлень можна знехтувати, буде невдалою, як тільки вона вважає помилковою позитивною ставкою, яка є загальною для паперу, і тому "вони" повинні або (неухильно) уникати будь-якого розгляду цього питання, або ж надавати хороший аргумент щодо того, чому це не хвилює їх передбачуваної аудиторії.

— whuber

1

Мені б дуже сподобатися відповісти посиланням на цю смужку XKCD (яка, як ви могли зауважити, включає повністю заплановану серію з декількох тестів ...).

— Ільмарі Каронен

21

Це складне питання ІМХО, і я хотів би зробити три коментарі щодо цієї ситуації.

По-перше, і загалом, я б більше зупинився на тому, чи стикаєтесь ви про підтверджуюче дослідження з набором чітко сформованих гіпотез, визначених в аргументативному контексті, або пояснювальним дослідженням, в якому спостерігається багато ймовірних показників, ніж вони плануються чи ні (адже ви можете просто плануйте зробити всі можливі порівняння).

По-друге, я б також зосередився на тому, як потім обговорюються отримані p-значення. Чи використовуються вони окремо для подання набору остаточних висновків, або вони спільно обговорюються як докази та відсутність доказів?

Нарешті, я б обговорив можливість того, що> 15 гіпотез, що виникають в результаті> 15 окремих тестів у квадраті, є насправді вираженням декількох гіпотез (можливо, однієї), які можуть бути узагальнені.

Більш загально, незалежно від того, гіпотеза заздалегідь визначена чи ні, виправлення численних порівнянь чи ні - це питання того, що ви включаєте до помилки типу I. Не виправляючи MC, ви зберігаєте лише контроль швидкості помилок типу I порівняння. Отже, у випадку численних порівнянь, ви маєте високий рівень помилок для сімейного типу I, і, отже, більш схильні до виявлення.

— peuhp
джерело

8

(+1) Можливо, варто визначити, що рівень експериментальної помилки не контролюється п'ятнадцятьма індивідуальними порівняннями, які плануються; з іншого боку, можливі порівняння, що перевищують п'ятнадцять років, не передбачені протоколом, не повинні враховуватися при виправленні багаторазових порівнянь.

— Scortchi

@Scortchi Дякую за ваш внесок, але я не розумію, що ви маєте на увазі під "експериментально вираженою помилкою помилок не контролюється п'ятнадцятьма індивідуальними порівняннями, які плануються"?

— peuhp

1

Лише основний момент, що якщо ви хочете контролювати ймовірність під нулем робити одну або кілька помилок типу I у всіх тих тестах, вам потрібно використовувати процедуру декількох порівнянь. Я згадую це лише тому, що раніше я натрапляв на замішання з цього приводу.

— Scortchi

2

Зверніть увагу , що це точно такий же питання виникло в дуже недавньому потоці: додаток Post Hoc множинних порівнянь .

— Майкл Р. Черник

1

@Scortchi. Добре дякую за це роз’яснення та внесок, це дійсно повинно бути чітко визначено у моїй відповіді. Додамо це.

— peuhp

5

З огляду на ваше оновлення дизайну, я б запропонував їм зробити якусь форму лінійно-лінійної моделі, щоб використовувати всі дані одразу. Здійснення зроблених ними аналізів на шматок їжі видається (а) неефективним (б) ненауковим, оскільки воно перевіряє 15 гіпотез, де, звичайно, є менше реальних гіпотез.

Я не прихильник коригувати кратність як умовний рефлекс, але в цьому випадку, якщо вони відкидають більш глибокий аналітичний підхід, то я б запропонував їх виправити.

— mdewey
джерело

1

k

$k$

15

$15$

1

χ^{2}

$\chi^2$

4

Якщо ви заміните слово "навмисне" на "заплановане", це може допомогти розвіяти аргументи, запропоновані авторами. Розглянемо два різні статистичні аналізи одних і тих же даних:

"Умисний злочин", в якому всі можливі випробування гіпотез заздалегідь викладаються комбінаторіально заздалегідь "статистичним кримінальним натхненником", при цьому планується систематично випробовувати кожного та вибирати тест з найменшим значенням p як "ключовий висновок" пропагувати у розділах "Результати, обговорення та висновки" статті, а також, навіть, заголовку.
"Злочин пристрасті", в якому початковий намір полягав у тому, щоб просто протиставити дані однією гіпотезою, але "ну ... одне веде до іншого", а численні спеціальні тести гіпотези "просто трапляються" в запалі наукової пристрасті до дізнатися "щось ... що- небудь! " з даних.

Так чи інакше, це «вбивство» - питання полягає в тому, чи є це в першому або другому ступені. Ясна річ, що перша є морально більш проблематичною. Мені це здається так, ніби автори тут намагаються щось стверджувати, що це не вбивство, бо воно було навмисне.

— Девід С. Норіс
джерело

4

Але робити кілька порівнянь - це не злочин, навмисний чи ні. П-полювання є.

— Кліф АВ

1

Цей документ безпосередньо стосується вашого питання: http://jrp.icaap.org/index.php/jrp/article/view/514/417

(Фрейн, А.В., "Планові випробування гіпотези не обов'язково звільняються від коригування множинності", Journal of Research Practice, 2015)

— Бонферроні
джерело