p
Чи це спричинило б золоту епоху науки та розуму? Ні, напевно, ні.
тН0:НА: Групи мають однакове середнє значення. Групи мають різні засоби.
Н0Н0гіпотеза в деякому сенсі "нудна", і дослідники, як правило, переймаються тим, щоб уникнути "хибнопозитивної" ситуації, де вони стверджують, що виявили різницю між групами, де насправді немає. Тому ми називаємо результати "значущими" лише тоді, коли вони здаються неправдоподібними гіпотезою, і, за умовою, цей поріг малоймовірності встановлений у 5%.
Н0
Різні підходи до виправлення покликані допомогти вам повернутися до номінальної помилки, яку ви вже вирішили допустити для окремих тестів. Вони роблять це дещо по-різному. Методи, що керують частотою помилок Family-Wise , як процедури Bonferroni , Sidak і Holm , кажуть: "Ви хотіли 5% шансу помилитися в одному тесті, тому ми гарантуємо, що у вас не більше 5 % ймовірність помилок на всіх ваших тестах. " Методи, які керують частотою помилкового виявленнянатомість скажіть: "Ви, мабуть, неправі до того, що до 5% часу помиляєтесь одним тестом, тому ми гарантуємо, що не більше 5% ваших" дзвінків "не є правильними під час декількох тестів". (Бачите різницю?)
Тепер, припустимо, ви намагалися контролювати рівень помилок у сімейному режимі для
всіх тестів гіпотез, що коли-небудь виконуються. Ви по суті говорите, що хочете <5% шансу помилково відхилити будь-яку нульову гіпотезу. Це встановлює неможливо суворий поріг, і висновок був би марним, але існує ще більш нагальна проблема: ваша глобальна корекція означає, що ви протестуєте абсолютно безглузді "складні гіпотези", наприклад
Н1:Препарат XYZ змінює кількість Т-клітин ∧На деяких полях виноград краще росте ∧… ∧ … ∧ … ∧ … ∧Чоловіки і жінки їдять різну кількість морозива
Із виправленнями помилкових частот виявлення числова проблема не є настільки гострою, але вона все ще є філософською проблемою. Натомість має сенс визначити "сімейство" пов'язаних тестів, наприклад, список кандидатних генів під час дослідження геноміки або набір відрізків частоти часу під час спектрального аналізу. Пристосування вашої родини до конкретного питання дозволяє вам фактично інтерпретувати помилку типу І, пов'язану безпосередньо. Наприклад, ви можете подивитися на коригуваний FWER набір p-значень із власних геномних даних і сказати: "Існує <5% шансів, що будь-який з цих генів є помилковим". Це набагато краще, ніж туманна гарантія, яка охоплює умовиводи людей, які вас не цікавлять, на теми, які вас не цікавлять.
Зворотний бік цього полягає в тому, що його правильний вибір "сім'ї" є дискусійним і трохи суб'єктивним (чи всі гени однією сім'єю чи я можу просто вважати кінази?), Але це повинно бути поінформовано вашою проблемою, і я нікому не вірю серйозно виступає за визначення сім'ї майже так широко.
Як щодо Байєса?
Байєсівський аналіз пропонує цілісну альтернативу цій проблемі - якщо ви готові трохи відійти від рамки помилок частотистів типу I / типу II. Ми починаємо з деякого безкомісійного попереднього закінчення ... ну ... все. Щоразу, коли ми щось дізнаємось, ця інформація поєднується з попередньою, щоб генерувати задній розподіл, який, в свою чергу, стає пріоритетним для наступного разу, коли ми щось дізнаємось. Це дає вам цілісне правило оновлення, і ви можете порівнювати різні гіпотези щодо конкретних речей, обчислюючи коефіцієнт Байєса між двома гіпотезами. Ви, мабуть, могли визначити великі шматки моделі, що навіть не зробить це особливо обтяжливим.
Існує стійкий ... пам'ятаємо, що байєсівські методи не потребують багаторазових виправлень порівнянь. На жаль, задні шанси - це лише ще одна тестова статистика для відвідувачів (тобто людей, які переймаються помилками типу I / II). У них немає особливих властивостей, які контролюють такі типи помилок (навіщо це робити?) Таким чином, ви знову на неприступній території, але, можливо, на трохи більш принциповій основі.
Контр-аргумент Байєса полягає в тому, що ми повинні зосередитись на тому, що ми можемо знати зараз, і тому ці показники помилок не є настільки важливими.
Про репродуктивність
Ви, здається, припускаєте, що неправильна корекція численних порівнянь є причиною багатьох неправильних / невідтворюваних результатів. Я відчуваю, що інші фактори, швидше за все, будуть проблемами. Очевидним є те, що тиск на публікацію змушує людей уникати експериментів, які справді підкреслюють їх гіпотезу (тобто, поганий експериментальний дизайн).
p