Я читав на , коефіцієнтах помилок типу 1, рівнях значущості, обчисленні потужності, розмірах ефектів та дебатах Фішера проти Неймана-Пірсона. Це залишило мене відчуття трохи переповненого. Прошу вибачення за стіну тексту, але я вважав, що потрібно надати огляд мого сучасного розуміння цих понять, перш ніж перейти до своїх актуальних питань.
З того, що я зібрав, -значення - це просто міра здивування, ймовірність отримання результату хоча б настільки ж екстремальної, враховуючи, що нульова гіпотеза справжня. Спочатку Фішер мав на меті бути суцільним заходом.
У рамках Неймана-Пірсона ви заздалегідь вибираєте рівень значущості та використовуєте це як (довільну) точку відсічення. Рівень значущості дорівнює частоті помилок типу 1. Це визначається частотою довгого запуску, тобто якщо ви повторили б експеримент 1000 разів і нульова гіпотеза вірна, приблизно 50 з цих експериментів призвели б до значного ефекту через мінливості вибірки. Вибираючи рівень значущості, ми захищаємо себе від цих помилкових позитивів з певною вірогідністю. -значення традиційно не відображаються в цих рамках.
Якщо ми знайдемо -значення 0,01, це не означає, що коефіцієнт помилок типу 1 дорівнює 0,01, помилка типу 1 заявляється апріорі. Я вважаю, що це один з головних аргументів у дебатах Фішера проти НП, оскільки часто повідомляються як 0,05 *, 0,01 **, 0,001 ***. Це може ввести людей в оману, кажучи, що ефект є значним при певній значенні p , а не при певному значущому значенні.
Я також усвідомлюю, що значення значення є функцією розміру вибірки. Тому його не можна використовувати як абсолютний вимір. Невелике -значення може вказувати на невеликий, нерелевантний ефект у великому експерименті зразка. Щоб протистояти цьому, важливо провести розрахунок розміру потужність / ефект при визначенні розміру вибірки для вашого експерименту. -значення говорять нам про те, чи є ефект, а не наскільки він великий. Дивіться Sullivan 2012 .
Моє запитання: Як я можу погодити факти, що -значення є мірою здивування (менший = більш переконливий), і в той же час його не можна розглядати як абсолютний показник?
Що мене бентежить, це таке: чи можемо ми бути впевненішими у малому -значенні, ніж у великому? У фішерському сенсі я б сказав так, ми більше здивовані. У рамках НП вибір меншого рівня значущості означатиме, що ми сильніше захищаємо себе від помилкових позитивних результатів.
Але з іншого боку, -значення залежать від розміру вибірки. Вони не є абсолютною мірою. Таким чином, ми не можемо просто сказати, що 0,001593 є більш значущим, ніж 0,0439. І все-таки, що мається на увазі в рамках Фішера: ми були б більш здивовані такому надзвичайному значенню. Існує навіть дискусія про те, що термін є дуже значущим як неправильне слово : чи неправильно називати результати "високозначущими"?
Я чув, що в деяких галузях науки вважаються важливими лише тоді, коли вони менші за 0,0001, тоді як в інших галузях значення приблизно 0,01 вже вважаються дуже значущими.
Пов’язані запитання: