Що не так з коригуваннями Bonferroni?


23

Я прочитав наступний документ: Perneger (1998) Що не так з коригуваннями Bonferroni .

Автор підсумував, сказавши, що коригування Бонферроні мають, у кращому випадку, обмежене застосування у біомедичних дослідженнях і не повинні використовуватися при оцінці доказів конкретної гіпотези:

Підсумки:

  • Регулювання статистичної значущості кількості тестів, проведених за даними дослідження - метод Бонферроні - створює більше проблем, ніж вирішує
  • Метод Бонферроні стосується загальної нульової гіпотези (про те, що всі нульові гіпотези є істинними одночасно), що рідко представляє інтерес або користь для дослідників
  • Основна слабкість полягає в тому, що інтерпретація знахідки залежить від кількості інших проведених тестів
  • Ймовірність помилок II типу також збільшується, так що справді важливі відмінності вважаються незначними
  • Просте опис того, які тести на важливість були виконані, і чому, як правило, є найкращим способом вирішення кількох порівнянь

У мене є наступний набір даних, і я хочу зробити кілька виправлень тестування, Але я не в змозі визначитися з найкращим методом у цьому випадку.

введіть тут опис зображення

Мені хочеться знати, чи вкрай важливо робити цей вид корекції для всіх наборів даних, що містять списки засобів і який найкращий метод виправлення в цьому випадку?


що саме таке "означає A", "meanB" ...?

3
За НЕ виправляючи для множинних порівнянь ви ризикуєте невідтворюваних результатів. У багатьох сферах, включаючи медицину та психологію, нещодавно виявлено, що саме так і сталося: багато чого з того, що вони "знають" на основі некоригованих p-значень, виявляється, просто не так. Без сенсу здаватися цинічним, схоже, що вибір зрозумілий: дослідник, якому потрібно відповідати критерію p-значення, щоб опублікувати, не виправиться; скептик, який хоче знання.
whuber

@whuber, але чи можна все-таки вважати відтворюваним, коли існує стільки різних методів виправлення значень p? У своїй відповіді мартіно навіть дає вказівки вибирати між менш консервативними або більш потужними методами.
Naxx

@ Nakx Відтворюваність лише слабко пов'язана зі статистичною процедурою: вона посилається на те, чи будуть отримані порівнянні результати, коли дослідження будуть незалежно виконані іншими (і, мабуть, у таких спробах повторити, заздалегідь буде сформульована одна чітка гіпотеза. буде використано статистичну процедуру, відповідну цій гіпотезі). Якщо оригінальна процедура не дає правильного p-значення, тоді, коли використовується багато разів для багатьох незалежних досліджень, вона в середньому зробить більш невідтворювані визначення, ніж його користувачі мають намір або очікують.
whuber

Відповіді:


23

Що не так з корекцією Бонферроні, окрім консерватизму, згаданого іншими, - це те, що не так у всіх виправленнях кратності. Вони не випливають із основних статистичних принципів і є довільними; не існує єдиного вирішення проблеми множинності у частістському світі. По-друге, коригування кратності базується на основоположній філософії, що достовірність одного твердження залежить від того, які інші гіпотези розважаються. Це еквівалентно настройці Байєса, де попередній розподіл для параметра, що цікавить, стає більш консервативним, оскільки враховуються інші параметри. Це, здається, не є цілісним. Можна сказати, що такий підхід походить від того, що дослідники були «спалені» історією помилкових позитивних експериментів, і тепер вони хочуть компенсувати свої проступки.

Щоб трохи розширитись, розглянемо наступну ситуацію. Дослідник онкології зробив кар’єру з вивчення ефективності хіміотерапії певного класу. Усі попередні 20 її рандомізованих випробувань призвели до статистично незначної ефективності. Зараз вона тестує нову хіміотерапію в тому ж класі. Перевага виживання є значним при P=0,04. Колега зазначає, що була вивчена друга кінцева точка (усадка пухлини) і що для результату виживання потрібно застосувати коригування кратності, що робить незначну користь для виживання. Як же так, що колега наголосив на другій кінцевій точці, але не міг менше піклуватися про коригування 20 попередніх невдалих спроб знайти ефективний препарат? І як би ви взяли до уваги попередні знання про 20 попередніх досліджень, якби ви не були баєсами? Що робити, якщо не було другої кінцевої точки. Чи вірив би колега, що користь для виживання була продемонстрована, ігноруючи всі попередні знання?


2
Не зрозуміло посилання на "повторюваний". Якщо є один тест, не потрібне коригування кратності, шанс повторення результату з не високий. P=0.04
Френк Харрелл

2
Щоб відповісти на @ MJA, я думаю, що є два переважні підходи: (1) бути байєсівським або (2) розставити пріоритети гіпотез і повідомити про результати в контексті, в порядку пріоритетності.
Френк Харрелл

3
Нічого принципового в цьому немає, і це ні в якому разі не є точним. Нерівність Бонферроні є верхньою межею лише для ймовірності помилки. Навіщо витрачати однаково на 5 параметрів? Чому б не зробити еліпсоїдальну область замість прямокутної для області прийняття? Чому б не скористатися методом Шеффе або Тукі? Чому б не використати простий складений тест типу ANOVA? Ви НЕ досягти бажаного альфа , використовуючи в рівність. αα
Френк Харрелл

2
Ви призначаєте дві частоти помилок. Під нулем, Bonferroni ТОЧНО підтримує очікувану кількість помилок на сім'ю. Це дає ВНУТРІШНЕ ОБЛІКУ щодо ймовірності "принаймні однієї" помилки на сім'ю (що залежить від кореляції). Витратити альфа рівномірно на 5 тестів є цілком логічним, не маючи конкретних причин розставляти пріоритети тестів по-іншому. Враховуючи інший контекст, існують принципові причини робити інакше. Вам здається, ви маєте на увазі, що використовувати "математично обгрунтований" метод "безпринципно" просто тому, що існують альтернативні методи з урахуванням інших контекстів, цілей та припущень.
Bonferroni

2
@FrankHarrell Ваші інші запитання служать лише для ілюстрації моєї точки зору. Часто існує безліч варіантів статистики тесту, процедури тестування тощо, навіть за відсутності кратності. Це не робить методологію "довільною" у тому сенсі, який ви начебто маєте на увазі. Якщо когось цікавить тест на всебічний, то будь-який спосіб провести його. Якщо когось цікавлять лише уніваріантні тести, то будь-якими способами проводять уніваріантні тести. Ви серйозно припускаєте, що обирати тест, який вирішує питання, яке вас цікавить, а не якесь інше питання "довільно"?
Bonferroni

12

Він підсумував, сказавши, що коригування Бонферроні має, у кращому випадку, обмежене застосування в біомедичних дослідженнях і не повинно використовуватися при оцінці доказів конкретної гіпотези.

Корекція Бонферроні є однією з найпростіших і найбільш консервативних методик багаторазового порівняння. Він також є одним із найдавніших і з часом значно покращився. Справедливо сказати, що коригування Bonferroni мають обмежене застосування майже у всіх ситуаціях. Краще підходить кращий підхід. Тобто, вам потрібно буде виправити кілька порівнянь, але ви можете вибрати метод, який менш консервативний і більш потужний.

Менш консервативний

Кілька методів порівнянь захищають від отримання хоча б одного помилкового позитивного в сімействі тестів. Якщо ви виконаєте один тест на рівні то ви дозволяєте 5% шансів отримати хибний позитив. Іншими словами, ви відкидаєте свою нульову гіпотезу помилково. Якщо ви виконаєте 10 тестів на рівні α = 0,05, це збільшується до 1 - ( 1 - 0,05 ) 10 = ~ 40% шанс отримати помилковий позитивαα=0.051(10.05)10

За допомогою методу Бонферроні ви використовуєте на нижньому кінці шкали (тобто α b = α / n ), щоб захистити своє сімейство з n тестів на рівні α . Іншими словами, він найбільш консервативний. Тепер ви можете збільшити α b вище нижньої межі, встановленої Bonferroni (тобто зробити ваш тест менш консервативним) і все одно захистити свою сім'ю тестів на рівні α . Існує багато способів зробити це, наприклад, метод Холма-Бонферроні, або, ще краще, помилковий показник виявленняαbαb=α/nnααбα

Більш потужний

Хорошим моментом, згаданим у статті, є те, що ймовірність помилок типу II також збільшується, так що справді важливі відмінності вважаються несуттєвими.

Це дуже важливо. Потужний тест - це те, що знаходить значні результати, якщо вони існують. Використовуючи корекцію Бонферроні, ви закінчуєте менш потужний тест. Оскільки Бонферроні консервативний, потужність, ймовірно, буде значно знижена. Знову ж таки, один із альтернативних методів, наприклад, помилковий показник виявлення, підвищить потужність тесту. Іншими словами, ви не тільки захищаєте від помилкових позитивних результатів, але й покращуєте свою здатність знаходити справді значущі результати.

Так що так, вам слід застосувати певну техніку корекції, коли у вас є кілька порівнянь. І так, Бонферроні, мабуть, слід уникати на користь менш консервативного та більш потужного методу


Є кілька альтернатив - Холм Бонферроні, наприклад, простий і зрозумілий. Чому б не дати йому піти. Скажімо, ви застосовуєте експресію генів або експресію білка, де ви експериментуєте, можливо, тисячі змінних в експерименті, тоді зазвичай використовується FDR.
мартіно

Ваш метод обчислення 40% шансу помилкового позитиву в десяти тестах базується на тому, що ваші тести є незалежними подіями, але з реальними даними це навряд чи може бути. Я думаю, що це, принаймні, варте коментаря.
Срібна рибка

Я також стурбований, що ця відповідь, як видається, пов'язує методи збереження частоти помилок у сімейному режимі з тими, що мають значення помилкового виявлення. Обговорювати обидві речі це не погано, але оскільки вони виконують різні роботи, я не думаю, що їх слід представляти як рівнозначні
Silverfish

Але якщо я добре розумію, FDR (помилкові показники виявлення) не гарантують контроль помилок типу I на заздалегідь визначеному рівні? (див. також мою відповідь на це запитання)

Але хіба не прозоріше і корисніше повідомляти про всі вихідні значення p у статті, щоб читачі могли самі судити про їхню обґрунтованість або вибрати, який із безлічі методів коригування вони хочуть використовувати?
Nakx

5

Томас Пернегер не є статистиком, і його робота сповнена помилок. Тож я б не сприймав це занадто серйозно. Це насправді піддавали сильній критиці з боку інших. Наприклад, Ейкін сказав, що праця Пернегера "складається майже повністю з помилок": Ейкін, "Існує інший метод коригування багаторазового тестування", BMJ. 1999 р. 9 січня; 318 (7176): 127.

Крім того, жодне з p-значень у початковому запитанні не має значення <0,05, навіть без коригування кратності. Тому, мабуть, не має значення, яке коригування використовується (якщо воно є).


4
Дякуємо за посилання! Я додав повнішу довідку. Це все ж більше коментар, ніж відповідь, і я впевнений, що ви можете щось додати, або хоча б короткий підсумок того, що говорить Ейкен. Не пов’язане з цим: сказати, що Пернегер не має досвіду статистики, не здається правдивим (за будь-яким розумним стандартом), доброзичливим чи корисним - чи можете ви видалити заяву?
Scortchi

@Scortchi Я змінив "не має досвіду статистики" на "не є статистиком". До речі, я не погоджуюся з тим, що відрізняти думки експертів від неекспертних думок не корисно.
Bonferroni

2
Наскільки я можу сказати, Пернегер не має ступеня ступеня статистики і ніколи не публікував статті в статистичному журналі. У статті, цитованій у запитанні, є стаття з думкою у BMJ, яку називають абсолютно невірною. Отже, що таке передбачувана експертиза Пернегера, яка є незаперечною "поза будь-якими розумними стандартами?" Бути "доброзичливим" не повинно перешкоджати істині.
Bonferroni

3
Наскільки я можу сказати, він є професором університетської лікарні з магістром біостатистики та доктором епідеміології, який читає лекції з медичної статистики та публікує аналізи клінічних випробувань та спостережних досліджень у медичних журналах. Якщо випливаєте з цього "ніякого статистичного досвіду", я вважаю, що ваш стандарт набагато вищий, ніж ви, напевно, очікуєте, що ваші читачі припускають. (Що саме я мав би сказати, а не те, що стандарт був нерозумним.) У будь-якому випадку, дякую за редагування!
Scortchi

5

Можливо, добре пояснити "міркування", що випливають з декількох виправлень тестування, таких як Bonferroni. Якщо це зрозуміло, ви зможете самі судити про те, чи слід застосовувати їх чи ні.

μH0:μ=0

H1:μ0H0:μ=0α

H0Н0

Н0Н0Н1

Неправдиві докази - це погана річ у науці, оскільки ми вважаємо, що ми отримали справжні знання про світ, але насправді ми могли мати невдачу із зразком. Отже, такі помилки слід контролювати. Тому слід встановити верхню межу ймовірності подібного роду доказів, або слід контролювати помилку типу I. Це робиться шляхом попереднього встановлення прийнятного рівня значущості.

5%Н05%Н0Н1Н1

Н0:мк1=0&мк2=0Н1:мк10|мк20α=0,05

Н0(1):мк1=0Н0(1):мк10Н1(2):мк2=0Н1(2):мк20α=0,05

Н0(1)H0(1)

1(10.05)2=0.0975α

Тут важливим фактом є те, що два тести засновані на одному та зразку sampe!

Зауважимо, що ми здобули незалежність. Якщо ви не можете взяти на себе незалежність, ви можете показати, використовуючи нерівність Бонферроні $, що помилка I типу може бути розширена до 0,1.

Зауважте, що Бонферроні є консервативним і що поетапна процедура Холма дотримується тих же припущень, що і для Бонферроні, але процедура Холма має більшу силу.

Коли змінні дискретні, краще використовувати тестову статистику на основі мінімального p-значення, і якщо ви готові відмовитися від контролю помилок типу I, коли робите величезну кількість тестів, то процедури False Discovery Rate можуть бути більш потужними.

Редагувати:

Якщо, наприклад, (див. Приклад у відповіді @Frank Harrell)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


2
Я думаю, що це питання виграє від такої відповіді, але я пропоную посилити формулювання "Отже, якщо ми встановимо рівень значущості на рівні 5%, то ми говоримо, що готові прийняти, щоб знайти неправдиві докази (через невдачу із зразком ) з шансом 5% "... Це лише ймовірність помилки, якщо нуль насправді відповідає дійсності , і про це варто сказати. (Чи є "помилковими доказами" загальний термін? Я більше звик бачити "помилковий позитив".)
Срібна рибка

@Silverfish; Я трохи переформулював це, ти вважаєш, що краще так?

1
Я думаю, що це краще - "статистично доведено", ймовірно, виграє і перефразовування, я знаю, що це багато людей інтерпретують p <0,05 чи що завгодно, але, звичайно, це насправді не доказ!
Срібна рибка

@Silverfish: Я повністю погоджуюся, що це не «доказ», але я вжив цей термін з дидактичних причин, тому що я почав за аналогією до доказу протиріччя. Я додам таке уточнення на початку

Ваша редакція заплутана. "Ефект хіміотерапії" на прикладі Франка вимірюється двома мірами: швидкістю виживання та зменшенням пухлини. На обидва може впливати хіміо. Гіпотеза очевидно, що хіміо працює. Але "твори" можна кількісно оцінити двома різними способами. Це аспект розпливчастості, про який я говорив у вашій новій темі.
Амеба каже, що повернеться до Моніки

4

Приємне обговорення коригування Бонферроні та розміру ефекту http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Також альтернативу корекції Данна-Сидака та комбінований підхід Фішера варто розглядати як альтернативу. Незалежно від підходу, варто повідомити про скориговані та необроблені p-значення плюс розмір ефекту, щоб читач мав свободу їх інтерпретувати.


Порада представляти як сирі, так і скориговані p-значення завжди мені здавалася розумною, але чи взагалі це вважається нормою чи навіть прийнятною?
Срібна рибка

3

Для одного він надзвичайно консервативний. Метод Холма-Бонферроні виконує те, що досягається методом Бонферонні (контроль за частотою помилок сімейної мудрості), одночасно є рівномірно більш потужним.


Це означає, що мені потрібно використовувати цей метод, щоб виправити свої результати, або я повинен прийняти результати залежно від моєї гіпотези.
goro

Я не знаю, що ви маєте на увазі під "я повинен прийняти результати залежно від моєї гіпотези", але так, ви повинні застосувати якусь множинну корекцію тестування, оскільки в іншому випадку ви сильно завищуєте помилку типу 1.
TrynnaDoStat

Що я мав на увазі під «я повинен прийняти результати залежно від своєї гіпотези», це те, що я провів свій аналіз трьома різними способами, включаючи GLM та методи перестановки. всі методи дали мені вагомі результати, і ці результати підтверджують мою гіпотезу про те, що я повинен мати значну різницю між групами. Коли я використовував Бонферроні для багаторазової корекції, всі мої результати були несуттєвими. Ось чому я розгублений. Цей метод не є оптимальним для мого аналізу, тому я можу використовувати інший або можу довіряти своїм результатам залежно від результатів інших методів без використання Бонферроні?
goro

1
Гаразд, я розумію, що ви говорите. Якщо ви перевірили одну і ту ж гіпотезу 3-ма різними способами, я б не застосував багаторазову корекцію тестування. Причина полягає в тому, що ці три результати випробувань, ймовірно, сильно залежать один від одного.
TrynnaDoStat

3

Слід розглядати методи "Помилкового виявлення" як менш консервативну альтернативу Бонферроні. Побачити

Джон Д. Сторі, "ПОЗИТИВНІ РОЗКРИТТЯ ЛІЖИ: БАЙЕЗСЬКА ІНТЕРПРЕТАЦІЯ ТА ЗНАЧЕННЯ", "Аннали статистики 2003, т. 31, № 6, 2013–2035.


3
Ці елементи контролюють різні речі. FDR гарантує, що не більше 5% (або будь-яка ваша альфа) ваших дзвінків є помилковими, що відрізняється від збереження частоти помилок у сімейному режимі (що робить Бонферроні).
Метт Крауз

@Matt Krause: І якщо я добре розумію, FDR (помилкові показники виявлення) не гарантують контроль помилок I типу на заздалегідь визначеному рівні? (див. також мою відповідь на це запитання)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.