Порівняння та порівняння, p-значень, рівнів значущості та помилки типу I


21

Мені було цікаво, чи може хтось дати короткий пробіг щодо визначень та використання p-значень, рівня значущості та помилки типу I.

Я розумію, що р-значення визначаються як "ймовірність отримання тестової статистики принаймні такої ж екстремальної, як та, яку ми насправді спостерігали", тоді як рівень значущості - це лише довільне значення відсічення для вимірювання, чи значення р є значним чи ні . Помилка I типу - це помилка відхиленої нульової гіпотези, яка була правдою. Однак я не впевнений у різниці між рівнем значущості та помилкою типу I, чи вони не є однаковою концепцією?

Наприклад, припустимо дуже простий експеримент, коли я перевертаю монету 1000 разів і рахую кількість разів, коли вона приземляється на "голови". Моя нульова гіпотеза H0 полягає в тому, що голови = 500 (неупереджена монета). Потім я встановлюю рівень значущості на альфа = 0,05.

Я перевертаю монету 1000 разів, а потім обчислюю p-значення, якщо значення p> 0,05, я не можу відкинути нульову гіпотезу, а якщо p-значення <0,05, то я відкидаю нульову гіпотезу.

Тепер, якщо я робив цей експеримент неодноразово, кожен раз обчислюючи значення p і відхиляючи чи не відхиляючи нульову гіпотезу і зберігаючи підрахунок, скільки я відхилив / не зміг відхилити, я б у кінцевому підсумку відкинув 5% нульових гіпотез які насправді були правдивими, чи правильно це? Це визначення помилки I типу. Отже, рівень значущості при тестуванні значущості Фішера - це по суті помилка I типу від тестування гіпотези Неймана-Пірсона, якщо ви проводили повторні експерименти.

Що ж стосується p-значень, якби я отримав p-значення 0,06 з мого останнього експерименту, і я зробив кілька експериментів і підрахував усі ті, що я отримав p-значення від 0 до 0,06, то я б також не мав а 6% шанс відхилити справжню нульову гіпотезу?

Відповіді:


16

Питання виглядає просто, але ваше відображення навколо нього показує, що це не так просто.

Насправді р-значення є порівняно пізнім доповненням до теорії статистики. Обчислення р-значення без комп’ютера дуже втомлює; саме тому до недавнього часу єдиним способом проведення статистичного тесту було використання таблиць статистичних тестів, як я пояснюю в цій публікації блогу . Оскільки ці таблиці були обчислені для фіксованих рівнів (як правило, 0,05, 0,01 і 0,001), ви могли виконати тест лише з цими рівнями.α

Комп'ютери зробили ці таблиці непотрібними, але логіка тестування залишається тією ж. Ти повинен:

  1. Сформулюйте нульову гіпотезу.
  2. Сформулюйте альтернативну гіпотезу.
  3. Вирішіть максимальну помилку I типу (ймовірність помилкового відхилення нульової гіпотези) помилку, яку ви готові прийняти.
  4. Створіть область відхилення. Ймовірність того, що статистика тесту потрапить у область відхилення, враховуючи, що нульовою гіпотезою є рівень . Як пояснює @ MånsT, це має бути не менше вашої прийнятної помилки типу I, і в багатьох випадках використовувати асимптотичні наближення.α
  5. Проведіть випадковий експеримент, обчисліть статистику тесту і подивіться, чи потрапляє він у область відхилення.

Теоретично, існує сувора еквівалентність між подіями «статистика потрапляє в область відбракування» і «р-значення менше , ніж »α , тому вона вважає , що ви можете повідомити про це р-значення замість . На практиці це дозволяє пропустити крок 3. та оцінити помилку I типу після тестування .

Повертаючись до своєї посади, твердження нульової гіпотези є невірним. Нульова гіпотеза полягає в тому, що ймовірність перекидання головки складає (нульова гіпотеза не може ставитися до результатів випадкового експерименту).1/2

Якщо ви повторюєте експеримент знову і знову з пороговим значенням р 0,05, так, у вас повинно бути приблизно 5% відхилення. І якщо ви встановите межу p-значення 0,06, вам слід закінчити приблизно 6% відхилення. Більш загально, для безперервних тестів за визначенням p-значення p

Prob(p<x)=x,(0<x<1),

що справедливо лише для дискретних тестів.

Ось декілька код R, який, я сподіваюся, може трохи прояснити це. Біноміальний тест відносно повільний, тому я роблю лише 10 000 випадкових експериментів, в яких я перекидаю 1000 монет. Я виконую біноміальний тест і збираю значення 10 000 р.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

Ви можете бачити, що пропорції не є точними, оскільки розмір вибірки не є нескінченним, а тест є дискретним, але між ними все ще спостерігається збільшення приблизно на 1%.


@ MånsT Дякую! +1 вам за відмінність між безперервними та дискретними тестами (що я, чесно кажучи, повністю не помітив).
gui11aume

4
@ gui11aume, дякую за ваш внесок! Однак ваше твердження "p-значення є відносно пізним доповненням до теорії статистики" є дивним. З того, що я прочитав, «тестування значущості» Фішера на p-значеннях виникло приблизно в 1925 році. Хоча тест на гіпотезу Неймана-Пірсона відбувся як «поліпшення» роботи Фішера через кілька років. Хоча це правда, що р-значення було важко обчислити (отже, чому використовувались стандартні рівні значущості), його робота була монументальною. Насправді його називають «батьком статистики», оскільки він став основою більшості сучасної статистики.
BYS2

2
@ BYS2 Абсолютно правильно (+1). Теорія р-значень бере свій початок від статистики. Це їх повсюдне використання, яке є останнім часом. Дякую за те, що помітили ;-)
gui11aume

@guillaume спасибі за це, у мене є ще одне швидке запитання. Ви говорите, що моя нульова гіпотеза не може бути H 0 = 500, але, здається, я використовую численні тексти, наприклад: нуль l гіпотеза полягає в тому, що середнє значення буде 0 або різниця в засобах буде 10 .. У мене ніколи не було проблем робити це так: s .. Розподіл t по суті просто масштабує, якщо я використовував H0 = 500 замість H0 = 0,5
BYS2

1
@ gui11aume: Можливо, може бути цікаво поглянути на мою відповідь: stats.stackexchange.com/questions/166323/…

15

Тут ви отримуєте хороші відповіді від @MansT & @ gui11aume (+1 для кожного). Дозвольте мені побачити, чи можу я зрозуміти щось чіткіше в обох своїх відповідях.

nk

p(k)=n!k!(nk)!pk(1p)nk
α=.05
number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05.021αtype I errorα.05біноміальні ймовірності. Далі зауважте, що подібні ситуації спонукали розробку середнього p-значення, щоб мінімізувати невідповідність p-значення та рівня значущості.

Можуть бути випадки, коли обчислене значення p не дорівнює тривалості помилок типу I, крім того, що рівень помилки типу I не обов'язково дорівнює рівню значущості. Розглянемо таблицю надзвичайних ситуацій 2x2 з такими спостережуваними підрахунками:

     col1 col2
row1   2    4   
row2   4    2

χ2χ12=1.3,p=.248χ2χ2p=.5671.5637.5671

Таким чином, питання тут полягають у тому, що з дискретними даними:

  • бажаний рівень значущості може бути не одним із можливих показників помилок типу I, &
  • використання (звичайних) наближень до постійної статистики дасть неточні обчислені p-значення.

N

(Хоча питання не задається питаннями вирішення цих проблем) Є такі речі, які пом'якшують ці проблеми:

  • N
  • часто є виправлення (наприклад, корекція Йейтса на безперервність), які наближають обчислені значення до правильних значень,
  • N
  • середнє значення p пропонує можливість наблизити рівень помилок типу I до обраного рівня довіри,
  • ви можете явно використовувати один із рівнів помилок I типу, які існують (або зазначити, що це було б).

Чудово, що ви заглибились у деталі, які ми залишили збоку (+1).
gui11aume

@gung - не могли б ви прокоментувати, як ви отримали показники помилок типу I для першої таблиці?
stats134711

@ stats134711, це лише сума індивідуальних ймовірностей для варіантів, які є настільки ж крайніми або більш екстремальними (2-х кінці).
gung - Відновіть Моніку

14

Поняття дійсно тісно пов'язані між собою.

П(туpе Я еrrоr)=ααП(туpе Я еrrоr)ααП(туpе Я еrrоr)αα

Значення р - це найнижчий рівень значущості, на якому нульова гіпотеза буде прийнята . Таким чином, це говорить нам "наскільки вагомим" є результат.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.