Чому не всі виправлення гіпотез застосовуються до всіх експериментів з самого світанку?


24

Ми знаємо, що ми повинні застосувати подібні до Беняміні Хохберга виправлення для тестування численних гіпотез до експериментів, заснованих на єдиному наборі даних, щоб контролювати швидкість виявлення помилок, інакше всі експерименти, що дають позитивний результат, можуть бути помилковими.

Але чому ми не застосовуємо цей самий принцип до всіх експериментів з початку часу, незалежно від того, звідки беруться дані?

Зрештою, більше половини опублікованих наукових результатів, які вважаються "значущими", зараз, як відомо, є помилковими та невідтворюваними, і немає жодної причини, чому це не могло б так легко бути 100%. Оскільки вчені схильні публікувати лише позитивні результати, ми не маємо уявлення про кількість негативних результатів, тому ми не маємо уявлення, чи є те, що ми публікуємо, лише колись помилкові позитивні результати - позитивні результати, зібрані чистою випадковою випадковістю під нульовою гіпотезою. Тим часом, нічого не можна сказати, що математичні показники, що стоять за виправленнями тестування декількох гіпотез, повинні застосовуватися лише до результатів одного і того ж набору даних, а не до результатів усіх експериментальних даних, отриманих за час.

Здається, вся наука стала однією великою рибальською експедицією, заснованою на хибних або слабких гіпотезах, тож як ми можемо це контролювати?

Як ми можемо контролювати швидкість виявлення помилкових виявлень, якщо все, що ми коли-небудь публікуємо, є незалежними результатами, знятими без будь-якої корекції для тестування численних гіпотез на всіх експериментах, проведених на сьогоднішній день?

Чи можна контролювати показник помилкового виявлення без застосування такої корекції?


2
Ваша власна запитання meta.stats.stackexchange.com/questions/3049/… стосується. Це поєднує кілька суперечливих (у деяких випадках сильно перебільшених) тверджень із кількома великими питаннями. Я думаю, що це суперечить консенсусу порад, вже наданих вам.
Нік Кокс

3
Вибачте, я не знаю, на які відповіді ви звертаєтесь: я не бачу тут жодних посилань. Я не голосую за закриття, і, природно, не маю бажання чи сили перешкоджати людям відповідати. Але, наприклад, "з зорі часу" - це невеликий приклад безглуздого перебільшення і на вашому посту є кілька інших. Бути провокаційним заради себе, на мій досвід цього сайту, само по собі не допоможе вашому основного питання. Читачі повинні позбавити стиль від суті.
Нік Кокс

3
Дякую за запрошення, але життя коротке. Я дозволю моєму перехресному посиланню на мета-нитку виступати як моя головна думка. Я висловив свою думку щодо стилю та змісту, які можуть стояти тут або по суті.
Нік Кокс

9
Якщо я займаюся наукою, мене не хвилює, які помилкові відкриття ви зробили. Дійсно, що стосується того чи іншого наукового твердження, мене, можливо, не хвилює, які інші помилкові відкриття я зробив. Якщо я не займаюся наукою, мені може бути навіть не байдуже, які інші помилкові відкриття я зробив у цьому конкретному аналізі - тому що якщо я виберу свій рівень помилок типу I на основі відносних витрат на два типи помилок, я вже обраний компроміс між двома, і взагалі не повинен коригувати багаторазове порівняння.
Glen_b -Встановити Моніку

2
На щастя, інші представили погляди, схожі на мої, з упевненістю та чіткістю. Як додатковий коментар, я раджу не плутати науку (що має деяку тривалу цінність) з її літературою. Існує багато способів, якими література розчаровує: розпливчастість, тривіальність, логічні помилки і т. Д. В рефераті кожен занепокоєний думкою про всі опубліковані помилкові позитивні тести, але в них слід вірити і діяти, що мають тривалі наслідки. (Якщо це випробування на наркотики, це може бути великою справою.) Отже, є багато чого турбуватися, але я не думаю, що наука приречена.
Нік Кокс

Відповіді:


20

p

Чи це спричинило б золоту епоху науки та розуму? Ні, напевно, ні.


т
Н0: Групи мають однакове середнє значення.НА: Групи мають різні засоби.
Н0Н0гіпотеза в деякому сенсі "нудна", і дослідники, як правило, переймаються тим, щоб уникнути "хибнопозитивної" ситуації, де вони стверджують, що виявили різницю між групами, де насправді немає. Тому ми називаємо результати "значущими" лише тоді, коли вони здаються неправдоподібними гіпотезою, і, за умовою, цей поріг малоймовірності встановлений у 5%.

Н0

Різні підходи до виправлення покликані допомогти вам повернутися до номінальної помилки, яку ви вже вирішили допустити для окремих тестів. Вони роблять це дещо по-різному. Методи, що керують частотою помилок Family-Wise , як процедури Bonferroni , Sidak і Holm , кажуть: "Ви хотіли 5% шансу помилитися в одному тесті, тому ми гарантуємо, що у вас не більше 5 % ймовірність помилок на всіх ваших тестах. " Методи, які керують частотою помилкового виявленнянатомість скажіть: "Ви, мабуть, неправі до того, що до 5% часу помиляєтесь одним тестом, тому ми гарантуємо, що не більше 5% ваших" дзвінків "не є правильними під час декількох тестів". (Бачите різницю?)


Тепер, припустимо, ви намагалися контролювати рівень помилок у сімейному режимі для всіх тестів гіпотез, що коли-небудь виконуються. Ви по суті говорите, що хочете <5% шансу помилково відхилити будь-яку нульову гіпотезу. Це встановлює неможливо суворий поріг, і висновок був би марним, але існує ще більш нагальна проблема: ваша глобальна корекція означає, що ви протестуєте абсолютно безглузді "складні гіпотези", наприклад

Н1:Препарат XYZ змінює кількість Т-клітин Виноград краще росте на деяких полях Чоловіки і жінки їдять різну кількість морозива

Із виправленнями помилкових частот виявлення числова проблема не є настільки гострою, але вона все ще є філософською проблемою. Натомість має сенс визначити "сімейство" пов'язаних тестів, наприклад, список кандидатних генів під час дослідження геноміки або набір відрізків частоти часу під час спектрального аналізу. Пристосування вашої родини до конкретного питання дозволяє вам фактично інтерпретувати помилку типу І, пов'язану безпосередньо. Наприклад, ви можете подивитися на коригуваний FWER набір p-значень із власних геномних даних і сказати: "Існує <5% шансів, що будь-який з цих генів є помилковим". Це набагато краще, ніж туманна гарантія, яка охоплює умовиводи людей, які вас не цікавлять, на теми, які вас не цікавлять.

Зворотний бік цього полягає в тому, що його правильний вибір "сім'ї" є дискусійним і трохи суб'єктивним (чи всі гени однією сім'єю чи я можу просто вважати кінази?), Але це повинно бути поінформовано вашою проблемою, і я нікому не вірю серйозно виступає за визначення сім'ї майже так широко.


Як щодо Байєса?

Байєсівський аналіз пропонує цілісну альтернативу цій проблемі - якщо ви готові трохи відійти від рамки помилок частотистів типу I / типу II. Ми починаємо з деякого безкомісійного попереднього закінчення ... ну ... все. Щоразу, коли ми щось дізнаємось, ця інформація поєднується з попередньою, щоб генерувати задній розподіл, який, в свою чергу, стає пріоритетним для наступного разу, коли ми щось дізнаємось. Це дає вам цілісне правило оновлення, і ви можете порівнювати різні гіпотези щодо конкретних речей, обчислюючи коефіцієнт Байєса між двома гіпотезами. Ви, мабуть, могли визначити великі шматки моделі, що навіть не зробить це особливо обтяжливим.

Існує стійкий ... пам'ятаємо, що байєсівські методи не потребують багаторазових виправлень порівнянь. На жаль, задні шанси - це лише ще одна тестова статистика для відвідувачів (тобто людей, які переймаються помилками типу I / II). У них немає особливих властивостей, які контролюють такі типи помилок (навіщо це робити?) Таким чином, ви знову на неприступній території, але, можливо, на трохи більш принциповій основі.

Контр-аргумент Байєса полягає в тому, що ми повинні зосередитись на тому, що ми можемо знати зараз, і тому ці показники помилок не є настільки важливими.


Про репродуктивність

Ви, здається, припускаєте, що неправильна корекція численних порівнянь є причиною багатьох неправильних / невідтворюваних результатів. Я відчуваю, що інші фактори, швидше за все, будуть проблемами. Очевидним є те, що тиск на публікацію змушує людей уникати експериментів, які справді підкреслюють їх гіпотезу (тобто, поганий експериментальний дизайн).

p


Дякую Метт. Мені подобається ідея "статистичного султана". Все-таки, чи можна контролювати показник помилкового виявлення без застосування певної такої корекції?
Келвін

9
Справа в тому що я намагався зробити те , що це не має сенсу турбуватися про The Помилковий Discovery Rate (або частоти помилок familywise) у всіх починаннях людини. Для цього потрібно стільки відрази до ризику, що ви ніколи нічого не зробите. Натомість ви тримаєте FDR / FWER для окремих експериментів досить низьким і намагаєтесь повторити важливі речі, які також цікаві / корисні / тощо.
Метт Крауз

Дякую, я думаю, врешті-решт все зводиться до тиражування важливих речей. Це цілком відповідає філософії науки, що жодна гіпотеза ніколи не може бути доведена, лише зміцнена з часом повторними експериментами.
Келвін

3
+1 для статистичного султана. Одне важливе враження: як повинен султан поводитися з тим, що значення p надходять послідовно? Лошивий р = 0,045, який прийде першим, буде вважатися значним, але через пару століть не буде шансів? Це, мабуть, не має сенсу (куб. К @ Кельвіна). Ще один розгляд: уявіть, що Султан повинен був чекати, скажімо, 1 рік, і застосувати виправлення до всіх результатів минулого року; Цікаво, яким би насправді став коригуваний альфа-поріг на практиці. Якісь ідеї з цього приводу, Метт? Це (помилково!), Якщо всі погоджуються на спільну альфа.
Амеба каже, що повернеться до Моніки

2
@amoeba, це цікаве питання, і я не впевнений, що знаю. Наш улюблений деспот даних може змусити всіх використати якусь послідовну конструкцію, яка може допомогти, але він все ще перевіряє цю дивну складну гіпотезу. Крім того, ми всі могли стати байєсами і перестати турбуватися про наш досвід помилок типу I / II більшу частину часу. Це трохи дешево (якщо ви не можете перемогти їх, ігноруйте їх!), Але я думаю, що це близько до того, як люди поводяться на практиці.
Метт Крауз

7

Я думаю, що ви навмисно малюєте песимістичний погляд на науку, вироблену статистикою. Дійсно, на мою думку, статистика - це не просто набір інструментів, що забезпечують значення p. Існує також суворість, дбайливість і настороженість щодо можливих наслідків, пов'язаних із процедурою наукової індукції ... і, на мій погляд, все, що ви заявляєте, приблизно так, ось деякі мої думки щодо того, чому ми маємо певні гарантії про знання, які ми виробляємо:

  • По-перше, загалом висновок не повинен бути досягнутий лише за аргументом значення ap, нижчого за заданий поріг.

  • По-друге, наскільки мені відомо, аргументи типу «понад половина опублікованих наукових результатів є помилковими» є актуальними та цікавими, але обчислюються на основі р-значень, приблизно рівних 0,05 (див., Наприклад, Плутанина щодо p-значень та помилкової швидкості виявлення ) . Для нижчих значень р ефект набагато нижчий, ніж оголошений, і на практиці не рідко можна отримати значення p значно нижчі за 0,05. Крім того, багато разів дана гіпотеза підтверджується кількома підгіпотезами, що знову зменшує оголошені ефекти.

  • По-третє, питання відтворюваності є справжнім, але також є проблемою, яку повинен вирішувати статистик шляхом виявлення та боротьби із заплутаними ефектами, групових розробок ... і це можна зробити дуже добре, якщо це зробити з досвідом та суворістю.

  • Нарешті, наскільки я розумію, архетипне статистичне дослідження повинно більш-менш базуватися на наступних 5 послідовних кроках:

    Formulate one or a few hypotheses
    Design the corresponding study
    Acquire the data
    Analyse the data
    Make conclusions about the above hypotheses (and only these ones)
    

    Цей загальний настанов заважає нам рибальські експедиції як інструмент для отримання загальних висновків.

На закінчення, я б сказав, що ваш намір захистити нас від поганих наукових висновків шляхом перевищення p-значень є трохи ілюзорним. Я вважаю за краще захищати нас від поганих наукових висновків, забезпечуючи та заохочуючи попереджувані та належні аналізи (і я хотів би подумати, що це причина, чому стільки кваліфікованих людей тут, щоб допомогти іншим на цьому сайті).


2
Я не думаю, що це допомагає захищатися. Поточне питання невідтворюваності в науці не просто "цікаве", воно перебуває в кризовій точці і опинилося на прикритті природи і навіть економіста, адже чи вірити в конкретне дослідження (або навіть у ефективність затвердженого препарату ) зараз не кращий, ніж монета, незважаючи на мільярди вкладених доларів.
Келвін

6
Я згоден, що криза існує. Моя думка полягає в тому, що ви можете перевірити якість монети. Не всі папери однакової якості, і з мого досвіду, іноді легко вказати на помилках паперу. Я не заперечую проблему, я заперечую рішення: просто
створіть

Добре, дякую, я поважаю вашу відповідь. Але все ж із статистичної точки зору, і незалежно від якості експериментів, ми ніколи не можемо контролювати загальну кількість помилкових виявлень, не застосовуючи таку корекцію, чи не можемо?
Келвін

0

Чи можна контролювати показник помилкового виявлення без застосування такої корекції?

100аа

Пам’ятайте, що (часто) частота помилок не стосується взагалі ймовірностей щодо гіпотези, перевіреної будь-яким індивідуальним тестом, а як методів проведення тестів із гарантованими довгостроковими показниками відмов. Корекція для багаторазового порівняння - це ще один метод гарантування довгострокових відмов: метод побудови складних методів, що містять багато тестів, щоб забезпечити деяку гарантовану тривалість відмови для з'єднання.

Якщо ви проведете один експеримент зі 100 тестів і повідомте, що 5 з них висловилися проти нуля, тим самим стверджуючи, що ви спостерігали якийсь реальний результат, ніхто не буде вражений, знаючи, що в середньому серед 100 тестів справжніх нулів 5% будуть відхилити; метод, який ви застосували, "проведіть 100 тестів і повідомте, якщо будь-який з них відповідає 5% порогу", має вищий рівень відмов, ніж 5%. Таким чином, ви можете обрати контроль за кількома порівняннями та повідомити, що, наприклад, у 2 із 100 тестів було значення p менше (5/100 == 0,05)%. Тепер ви використовуєте метод, який знову має гарантований рівень відмов (для помилки повідомлення хоча б одного значного тесту, хоча жодна гіпотеза не є хибною) 5%.

Тобто виправлення помилок FWE / Family - це управління глобальною швидкістю помилок; що якщо ви робите n , непоправлені пороги). На противагу цьому, якби кожен завжди перевіряв 100 справжніх гіпотез за кожне дослідження і не застосовував FEW, кількість експериментів, що повідомляють про значні наслідки, перевищувала б гарантований рівень помилок у 5%. (На відміну від частоти виявлення FDR / False Detection, що не є методом, який гарантує швидкість звітування про будь-який значний тест у дослідженні декількох тестів правдивих гіпотез.)а


6
Те, що ви називаєте "швидкістю помилкових відкриттів" у першому пункті, - це не те, що називається "швидкістю помилкових відкриттів".
амеба каже, що повернеться до Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.