Я шукаю різних способів пояснення учням (в курсі елементарної статистики), що таке тест з двома хвостами і як обчислюється його значення P.
Як ви пояснюєте своїм учням тест з двома кінцями?
Я шукаю різних способів пояснення учням (в курсі елементарної статистики), що таке тест з двома хвостами і як обчислюється його значення P.
Як ви пояснюєте своїм учням тест з двома кінцями?
Відповіді:
Це велике запитання, і я з нетерпінням чекаю всіх версій пояснення p-значення та тесту з двома хвостами проти однохвостих. Я викладаю статистику хірургам-ортопедам, і тому намагався дотримуватися її якнайбільше, оскільки більшість з них не займалися математикою протягом 10-30 років.
Я починаю з пояснення того, що якщо ми вважаємо, що у нас є чудова монета, ми знаємо, що це в кінцевому рахунку має в середньому 50% відкидних фліп ( ). Тепер, якщо вам цікаво, яка ймовірність отримати лише 2 хвости з 10 фліпів цією справедливою монетою, ви можете обчислити цю ймовірність, як я це робив у гістограмі. З графіку видно, що ймовірність отримати 8 з 10 фліп із справедливою монетою приблизно приблизно ≈ 4,4 % .
Оскільки ми ставимо під сумнів справедливість монети, якби у нас було 9 або 10 хвостів, ми повинні включити ці можливості, хвіст тесту. Додаючи значення, ми отримуємо, що ймовірність зараз трохи більше отримання 2 хвостів або менше.
Тепер, якщо ми отримаємо лише 2 голови, тобто 8 голів (інший хвіст), ми, мабуть, так само готові поставити під сумнів справедливість монети. Це означає, що ви отримаєте ймовірність для двосхилого тесту .
Оскільки ми в медицині зазвичай зацікавлені в вивченні невдач, нам потрібно включити протилежну сторону ймовірності, навіть якщо наш намір полягає в тому, щоб робити добро і застосовувати корисне лікування.
Цей простий приклад також показує, наскільки ми залежні від нульової гіпотези для обчислення р-значення. Мені також хочеться вказати на схожість між двочленною кривою та кривою дзвону. Змінюючись на 200 фліп, ви отримуєте природний спосіб пояснити, чому ймовірність отримати рівно 100 фліпів починає бракувати актуальності. Визначаючі інтервали, що цікавлять, є природним переходом до функцій функцій густини / маси та функції їх кумуляції.
У своєму класі я рекомендую їм відео зі статистикою академії Хана, а також використовую деякі його пояснення для певних понять. Вони також отримують гортання монет, де ми розглядаємо випадковість гортання монети - те, що я намагаюся показати, що випадковість є більш випадковою, ніж те, що ми зазвичай вважаємо, натхнене цим епізодом Radiolab .
У мене зазвичай є один графік / слайд, R-код, який я використовував для створення графіка:
library(graphics)
binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0,
col=c("green", "gold", "red")){
barplot(
dbinom(0:x_max, x_max, my_prob)*100,
col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
#names=0:x_max,
ylab="Probability %",
xlab="Number of tails", names.arg=0:x_max)
if (my_title != FALSE ){
title(main=my_title)
}
}
binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))
Припустимо, ви хочете перевірити гіпотезу про те, що середній зріст чоловіків "5 футів 7 дюймів". Ви вибираєте випадкову вибірку чоловіків, вимірюєте їх висоту і обчислюєте середню вибірку. Ваша гіпотеза:
У наведеній вище ситуації ви робите тест з двома хвостами, як би відхилили свою нуль, якщо середня вибірка є занадто низькою або занадто високою.
У цьому випадку значення р представляє ймовірність реалізації середньої вибірки, яка знаходиться на рівні принаймні такою ж крайньою, як та, яку ми насправді отримали, припускаючи, що нуль насправді відповідає дійсності. Таким чином, якщо спостерігати за зразком означає "5 футів 8 дюймів", то значення p буде представляти ймовірність того, що ми будемо спостерігати висоти більше "5 футів 8 дюймів" або висоти менше "5 футів 6 дюймів" за умови нуля правда.
Якщо, з іншого боку, ваша альтернатива була поставлена так:
У наведеній вище ситуації ви б провели односторонній тест з правого боку. Причина полягає в тому, що ви вважаєте за краще відхилити нуль на користь альтернативи лише в тому випадку, якщо середній показник вибірки надзвичайно високий.
Інтерпретація p-значення залишається однаковою з тим незначним нюансом, що зараз ми говоримо про ймовірність реалізації середньої вибірки, що перевищує ту, яку ми отримали насправді. Таким чином, якщо спостерігати за вибіркою означає "5 футів 8 дюймів", то значення p буде представляти ймовірність того, що ми будемо спостерігати висоти, більші за "5 футів 8 дюймів", якщо нуль є істинним.