Якщо ви запускаєте незалежних статистичних тестів, використовуючи як свій рівень значущості, і нуль отримує в кожному випадку, то чи ви знайдете "значимість", це просто виведення з випадкової величини. Зокрема, він береться з біноміального розподілу з і . Наприклад, якщо ви плануєте запустити 3 тести, використовуючи , і (вам невідомо), насправді різниці немає в кожному конкретному випадку, то існує 5% шансів знайти значний результат у кожному тесті. Таким чином, рівень помилок типу I утримується доα p = α n = k α = .05 α α α α o α n e wкαp = αn = kα = .05αдля тестів індивідуально, але в наборі трьох тестів частота помилок довгострокового типу I буде вищою. Якщо ви вважаєте, що ці 3 тести мають сенс групувати / продумувати разом, то, можливо, ви хочете, щоб рівень помилок I типу був у для цілого набору , а не окремо. Як ти повинен про це піти? Є два підходи, які на перехід від початкового (тобто ) до нового значення (тобто ):αααоαн е ш
Бонферроні: відрегулюйте значення " використовується для оцінки "значущості" таким чиномα
αн е ш= αок
Данн-Сидак: налаштування за допомогоюα
αн е ш= 1 - ( 1 - αо)1 / к
(Зверніть увагу, що Данн-Сидак припускає, що всі тести в наборі не залежать один від одного і можуть призвести до інфляції помилок типу І, якщо це припущення не дотримується.)
Важливо відзначити , що при проведенні випробувань, існує два види помилок , які ви хочете уникнути, типу I (тобто, кажучи , що є різниця , коли є не один) і типу II (тобто, кажучи , що НЕ різниця, коли насправді є). Зазвичай, коли люди обговорюють цю тему, вони лише обговорюють - і, здається, знають / стосуються лише помилок типу I. Крім того, люди часто нехтують згадкою про те, що обчислена швидкість помилок буде дотримана лише у випадку, якщо всі нулі вірні. Тривіально очевидно, що ви не можете зробити помилку типу I, якщо нульова гіпотеза помилкова, але важливо чітко пам’ятати про цей факт при обговоренні цього питання.
Я доводжу це, оскільки є наслідки цих фактів, які, як видається, часто не враховуються. По-перше, якщо , підхід Данна-Сидака запропонує більш високу потужність (хоча різниця може бути досить невеликою при малому ), і тому завжди слід віддавати перевагу (коли це застосовується). По-друге, слід застосувати підхід "пониження" . Тобто спочатку протестуйте найбільший ефект; якщо ви переконані, що нуль не отримує в такому випадку, то максимально можлива кількість помилок типу I - , тому наступний тест повинен бути відповідно скоригований тощо. (Це часто робить людей незручним і схоже на риболовлю, але це не такk k - 1 αk > 1кk - 1риболовлю, оскільки випробування незалежні, і ви мали намір проводити їх ще до того, як побачили дані. Це лише спосіб оптимальної настройки .) α
Наведене вище стосується незалежно від того, як ви оцінюєте тип I щодо помилок типу II. Однак, апріорі немає підстав вважати, що помилки типу I гірші, ніж II типу (незважаючи на те, що всі, здається, так вважають). Натомість це рішення, яке повинен прийняти дослідник, і воно повинно бути специфічним для даної ситуації. Особисто, якщо я використовую теоретично запропоновані, апріорні , ортогональні контрасти, я зазвичай не коригую .α
(І знову це заявити, оскільки важливо, все вищесказане передбачає, що тести є незалежними. Якщо контрасти не є незалежними, наприклад, коли порівнюється декілька процедур у порівнянні з одним і тим же контролем, інший підхід, ніж корекція (наприклад, тест Даннета). α