Сидак чи Бонферроні?


13

Я використовую узагальнену лінійну модель у SPSS, щоб переглянути розбіжності середньої кількості гусениць (ненормальних, за допомогою поширення Твіді) на 16 різних видах рослин.

Я хочу провести кілька порівнянь, але я не впевнений, чи слід використовувати тест корекції Сидака або Бонферроні. Яка різниця між двома тестами? Чи один кращий за інший?


1
Я ненавиджу той факт, що такі виправлення часто потрібні при стандартному тестуванні гіпотез, що часто проводиться, і я віддаю перевагу байєсівським методам. З цього приводу я менше ненавиджу виправлення Сидака, тому що він здається менш спеціальним (якщо ви готові прийняти припущення про незалежність). Це здебільшого лише особисті переваги, хоча я так зробив коментар замість відповіді.
Майкл МакГоуан

1
@MichaelMcGowan: Цікаво, але що ви вважаєте " ad hoc " про корекцію Bonferroni?
кардинал

@cardinal Вибачте, напевно, це був не найкращий вибір слів. Ціною необхідності більш сильних припущень (я не хочу дорікати цю ціну) корекція Сидака створює межу з більш якісним значенням. Я не можу насправді якісно пояснити, що являє собою обмеження в корекції Бонферроні, окрім свого роду в гіршому випадку, пов'язаного з нерівністю Була.
Майкл МакГоуан

@MichaelMcGowan: Ага, добре. Я бачу. Я припускаю, що про Bonferroni можна сказати кілька якісних речей: (a) забезпечує гарантований захист від частоти помилок у сімейному режимі, незалежно від залежності між окремими статистичними тестами під нулем та (b) це точно правильне виправлення зробити, коли області відхилення тестів окремих гіпотез попарно роз'єднуються.
кардинал

1
Два тести не є незалежними, якщо ймовірність помилки I типу для одного тесту співвідноситься з такою для іншого тесту. Наприклад, припустимо, що ви проводите експеримент з однією умовою контролю та двома умовами тестування. Два випробування, що порівнюють кожну умову випробування з умовою контролю, не є незалежними. Ви можете це побачити, розглядаючи, що трапиться, якщо випадково отримаєте надзвичайне значення для умови управління. Це зробило б обидва випробування статистично значущими.

Відповіді:


20

Якщо ви запускаєте незалежних статистичних тестів, використовуючи як свій рівень значущості, і нуль отримує в кожному випадку, то чи ви знайдете "значимість", це просто виведення з випадкової величини. Зокрема, він береться з біноміального розподілу з і . Наприклад, якщо ви плануєте запустити 3 тести, використовуючи , і (вам невідомо), насправді різниці немає в кожному конкретному випадку, то існує 5% шансів знайти значний результат у кожному тесті. Таким чином, рівень помилок типу I утримується доα p = α n = k α = .05 α α α α o α n e wkαp=αn=kα=.05αдля тестів індивідуально, але в наборі трьох тестів частота помилок довгострокового типу I буде вищою. Якщо ви вважаєте, що ці 3 тести мають сенс групувати / продумувати разом, то, можливо, ви хочете, щоб рівень помилок I типу був у для цілого набору , а не окремо. Як ти повинен про це піти? Є два підходи, які на перехід від початкового (тобто ) до нового значення (тобто ):αααoαnew

Бонферроні: відрегулюйте значення " використовується для оцінки "значущості" таким чиномα

αnew=αok

Данн-Сидак: налаштування за допомогоюα

αnew=1(1αo)1/k

(Зверніть увагу, що Данн-Сидак припускає, що всі тести в наборі не залежать один від одного і можуть призвести до інфляції помилок типу І, якщо це припущення не дотримується.)

Важливо відзначити , що при проведенні випробувань, існує два види помилок , які ви хочете уникнути, типу I (тобто, кажучи , що є різниця , коли є не один) і типу II (тобто, кажучи , що НЕ різниця, коли насправді є). Зазвичай, коли люди обговорюють цю тему, вони лише обговорюють - і, здається, знають / стосуються лише помилок типу I. Крім того, люди часто нехтують згадкою про те, що обчислена швидкість помилок буде дотримана лише у випадку, якщо всі нулі вірні. Тривіально очевидно, що ви не можете зробити помилку типу I, якщо нульова гіпотеза помилкова, але важливо чітко пам’ятати про цей факт при обговоренні цього питання.

Я доводжу це, оскільки є наслідки цих фактів, які, як видається, часто не враховуються. По-перше, якщо , підхід Данна-Сидака запропонує більш високу потужність (хоча різниця може бути досить невеликою при малому ), і тому завжди слід віддавати перевагу (коли це застосовується). По-друге, слід застосувати підхід "пониження" . Тобто спочатку протестуйте найбільший ефект; якщо ви переконані, що нуль не отримує в такому випадку, то максимально можлива кількість помилок типу I - , тому наступний тест повинен бути відповідно скоригований тощо. (Це часто робить людей незручним і схоже на риболовлю, але це не такk k - 1 αk>1kk1риболовлю, оскільки випробування незалежні, і ви мали намір проводити їх ще до того, як побачили дані. Це лише спосіб оптимальної настройки .) α

Наведене вище стосується незалежно від того, як ви оцінюєте тип I щодо помилок типу II. Однак, апріорі немає підстав вважати, що помилки типу I гірші, ніж II типу (незважаючи на те, що всі, здається, так вважають). Натомість це рішення, яке повинен прийняти дослідник, і воно повинно бути специфічним для даної ситуації. Особисто, якщо я використовую теоретично запропоновані, апріорні , ортогональні контрасти, я зазвичай не коригую .α

(І знову це заявити, оскільки важливо, все вищесказане передбачає, що тести є незалежними. Якщо контрасти не є незалежними, наприклад, коли порівнюється декілька процедур у порівнянні з одним і тим же контролем, інший підхід, ніж корекція (наприклад, тест Даннета). α


+1. Чи то, що ви називаєте "понижуючим" підходом для Бонферроні, рівнозначне тому, що відомо як метод Холма-Бонферроні? Якщо так, то чи має та сама логіка, що застосовується до Данна-Сідака?
амеба каже, що повернеться до Моніки

1
@amoeba, так, його іноді називають "методом Холма", отже, Холм-Бонферроні або Холм-Сідак.
gung - Відновіть Моніку

Дякую. Інше питання, яке я маю, стосується вашого твердження, що якщо ви використовуєте теоретично-запропоновані, апріорні, ортогональні контрасти, ви зазвичай не коректуєте . Наскільки тут важливий "ортогональний"? Наприклад, якщо у вас є 6 предметних груп і порівнюйте групи 2, 3, 4, 5 і 6 з групою 1 (де група 1 може бути, наприклад, контрольною групою), то це неортогональні контрасти. Ви б відчували себе по-іншому щодо коригування в цьому випадку, ніж коли контрасти дійсно ортогональні, як 1-2, 3-4, 5-6? Якщо так, то чому? ααα
Амеба каже, що повернеться до Моніки

@amoeba, використовуючи 3 априорі, ортогональні контрасти в одному дослідженні, не відрізняється від контрасту 1 a-апріорного контрасту в кожному з 3 різних досліджень. Оскільки ніхто не стверджує, що для останнього вам потрібні виправлення в родині, немає цілісної причини вимагати їх для першого. У вашому іншому прикладі, якщо контрольна група випадково відскочить нижче, кожен з ваших 5 контрастів буде добре виглядати; але це навряд чи станеться, якщо ви провели 5 незалежних досліджень. Ви дійсно повинні скористатися якоюсь формою коригування, або ви могли використовувати тест Даннета .
gung - Відновіть Моніку

Я не думаю, що я цілком розумію. Я провів швидке моделювання з значеннями у кожній групі з та . Я отримую 0,14 шансу щонайменше одного помилкового позитивного для трьох ортогональних контрастів і 0,12 шансу для трьох неортогональних контрастів, як зазначено вище. Це дуже близько. Різниця набагато більша за шанс отримати всі три помилкові позитиви: 0,0001 та 0,002. Тож я розумію, що отримання кількох значущих результатів набагато ймовірніше за інших. контрасти, але якщо хтось стосується рівня помилок у родині, то два випадки здаються майже однаковими. n = 10 α = 0,05N(0,1)n=10α=0.05
Амеба каже, що повернеться Моніка

6

Позначимо з відкоригований рівень значущості, тоді Бонферроні працює так: Ділимо рівень значущості на число тестів, тобто . Сидак працює так (якщо тест незалежний): . α n α = α / n α = 1 - ( 1 - α ) 1 / nααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n

Якщо вам потрібна ще більш потужна процедура, ви можете скористатися процедурою Бонферроні-Холма.


Чому з Bonferroni простіше впоратися?
Емілі

3
αn1(1α)1/n

@ Момокомп'ютери справді дуже добре арифметичні, тому я не вважаю аргумент простоти дуже переконливим. Сто років тому, коли обчислення робили вручну, звичайно була зовсім інша історія.
Майкл МакГоуан

+1 порівняно з моєю відповіддю, це доходить до кращого ;-)
gung - Відновіть Моніку

Ха-ха, це я думав, ти мав на увазі! Дуже дякую!
Емілі

5

Корекція Sidak передбачає, що окремі тести є статистично незалежними. Корекція Бонферроні цього не передбачає.


Чи означає це, що "Бонферроні" - просто більш консервативний тест?
Емілі

1
Bonferroni є більш консервативним, коли обидва тести підходять. Але якщо ваші тести не є незалежними, не слід використовувати Sidak.
onestop

2
+1 Про те, що корекція Bonferroni не вимагає незалежних тестів, є хорошим моментом, який я не висвітлював.
gung - Відновіть Моніку

@onestop: Що означає тести незалежні? Не могли б ви навести приклад?
Gunnhild

1
Корекція Сидаку не потребує незалежності. Це лише припускає, що тести не залежать від негативу. Позитивна залежність - це добре.
Bonferroni

4

Сидак та Бонферроні настільки схожі, що, ймовірно, ви отримаєте однаковий результат, незалежно від того, яку процедуру використовуєте. "Бонферроні" лише незначно консервативніший, ніж Сідак. Наприклад, для 2 порівнянь та сімейної альфи 0,05, Сідак проводив би кожен тест на .0253, а Бонферроні проводив би кожен тест на .0250.

Багато коментаторів на цьому сайті заявили, що Sidak діє лише тоді, коли статистика тестів ваших порівнянь не залежить. Що це не так. Sidak дозволяє незначно збільшувати коефіцієнт сімейних помилок, коли статистика тестування НЕГАТИВНО залежить, але якщо ви робите двосторонні тести, негативна залежність, як правило, не викликає занепокоєння. Під негативною залежністю Сидак фактично надає верхню межу частоти помилок у сімейному режимі. Зважаючи на це, існують й інші процедури, які забезпечують таке обмеження і, як правило, зберігають більше статистичної сили, ніж Сидак. Тож Сидак, мабуть, не найкращий вибір.

Одне, що передбачає процедура Бонферроні (того, що Сідак не робить), - це суворий контроль очікуваної кількості помилок типу I - так званий "коефіцієнт помилок на сім'ю", який є більш консервативним, ніж показник помилок у родині. Для отримання додаткової інформації дивіться: Frane, AV (2015) "Чи відповідні помилки типу I в сім'ї в соціальних та поведінкових науках?" Журнал сучасних прикладних статистичних методів 14 (1), 12-23.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.