Дозвольте почати з визначення умов дискусії, як я їх бачу. Значення р - це ймовірність отримати вибіркову статистику (скажімо, середнє значення вибірки) на відстань або далі від деякого еталонного значення, ніж ваша вибіркова статистика, якщо опорне значення було істинним параметром сукупності. Наприклад, p-значення відповідає на питання: яка ймовірність отримання вибірки означає IQ більше, ніжбалів від 100, якщо 100 справді означає середню кількість населення, з якого було взято ваш зразок. Тепер питання полягає в тому, як слід використовувати цю кількість для статистичного висновку? | х¯- 100 |
Фішер вважав, що значення p може бути інтерпретоване як суцільна міра доказів проти нульової гіпотези . Немає конкретного фіксованого значення, за якого результати стають «значущими». Як я зазвичай намагаюся донести це до людей, - це зазначити, що для всіх намірів і цілей, p = .049 і p = .051 є однаковою кількістю доказів проти нульової гіпотези (пор. @ Відповідь Генріка тут ) .
З іншого боку, Neyman & Pearson вважали, що ви можете використовувати p-значення як частину формалізованого процесу прийняття рішень . Після закінчення дослідження слід або відхилити нульову гіпотезу, або не відхилити нульову гіпотезу. Крім того, нульова гіпотеза може бути або правдою, або неправдою. Таким чином, є чотири теоретичні можливості (хоча в будь-якій ситуації існує лише дві): ви могли прийняти правильне рішення (не зможете відкинути істинну - або відхилити помилкову - нульову гіпотезу), або можете зробити тип Помилка I або II типу (відхиляючи справжній нуль або не відхиляючи помилкову нульову гіпотезу відповідно). (Зауважте, що значення p - це не те саме, що й рівень помилок типу I, про який я тут і розповідаю.) Значення р дозволяє процес прийняття рішення про те, чи слід відхиляти нульову гіпотезу, формалізувати чи ні. У рамках Неймана-Пірсона процес діяв би так: існує нулева гіпотеза, що люди вірять за замовчуванням за відсутності достатніх доказів протилежного, і альтернативна гіпотеза, яка, на вашу думку, може бути істинною. Існує декілька довгострокових помилок, з якими ви будете готові жити (зауважте, що немає причин, щоб вони були 5% та 20%). Враховуючи ці речі, ви проектуєте своє дослідження, щоб розмежувати ці дві гіпотези, зберігаючи, щонайбільше, коефіцієнт помилок, проводячи аналіз потужності та відповідно провівши своє дослідження. (Як правило, це означає мати достатню кількість даних.) Після закінчення дослідження ви порівнюєте своє р-значення зp < ααі відкинути нульову гіпотезу, якщо ; якщо це не так, ви не зможете відкинути нульову гіпотезу. Так чи інакше, ваше навчання закінчено, і ви прийняли своє рішення. p < α
Фішерський і Неймано-Пірсонський підходи не однакові . Центральне твердження рамки Неймана-Пірсона полягає в тому, що наприкінці вашого дослідження ви повинні прийняти рішення і піти піти. Нібито дослідник одного разу звернувся до Фішера з «незначними» результатами, попросивши його, що йому робити, і Фішер сказав: «Ідіть, отримайте більше даних».
Особисто я вважаю елегантну логіку підходу Неймана-Пірсона дуже привабливою. Але я не думаю, що це завжди доречно. На мій погляд, перш ніж розглянути рамки Неймана-Пірсона, повинні бути виконані щонайменше дві умови:
- Повинна бути якась конкретна альтернативна гіпотеза ( величина ефекту ), яка вас чомусь хвилює. (Мені байдуже, який розмір ефекту, яка ваша причина, чи це обґрунтована, чи узгоджена тощо. Тільки те, що у вас є.)
- Потрібно мати певні підстави підозрювати, що ефект буде «значущим», якщо альтернативна гіпотеза відповідає дійсності. (На практиці це, як правило, означає, що ви провели аналіз потужності та маєте достатньо даних.)
Якщо ці умови не виконані, значення p все ще може бути інтерпретоване відповідно до ідей Фішера. Більше того, мені здається, ймовірно, більшу частину часу ці умови не виконуються. Ось декілька простих прикладів, які приходять до тями, коли виконуються тести, але вищезазначені умови не виконуються:
- омнібус ANOVA для моделі множинної регресії (можна зрозуміти, як всі гіпотезовані ненульові параметри схилу збираються разом, щоб створити параметр не центральності для розподілу F , але він не є віддаленим інтуїтивним, і я сумніваюсь у когось робить це)
- значення тесту Шапіро-Вілка щодо нормальності ваших залишків в регресійному аналізі (яка величина ви переймаєтесь і чому? Яка потужність у вас повинна відхилити нуль, коли ця величина правильна?) W
- значення тесту на однорідність дисперсії (наприклад, тест Левене ; ті ж коментарі, що і вище)
- будь-які інші тести для перевірки припущень тощо.
- t-тести коваріатів, окрім пояснювальної змінної, що становить первинний інтерес у дослідженні
- початкові / розвідувальні дослідження (наприклад, пілотні дослідження)