Пояснення двосхилих тестів


16

Я шукаю різних способів пояснення учням (в курсі елементарної статистики), що таке тест з двома хвостами і як обчислюється його значення P.

Як ви пояснюєте своїм учням тест з двома кінцями?

Відповіді:


17

Це велике запитання, і я з нетерпінням чекаю всіх версій пояснення p-значення та тесту з двома хвостами проти однохвостих. Я викладаю статистику хірургам-ортопедам, і тому намагався дотримуватися її якнайбільше, оскільки більшість з них не займалися математикою протягом 10-30 років.

Мій спосіб пояснення обчислення р-значень та хвостів

Я починаю з пояснення того, що якщо ми вважаємо, що у нас є чудова монета, ми знаємо, що це в кінцевому рахунку має в середньому 50% відкидних фліп ( ). Тепер, якщо вам цікаво, яка ймовірність отримати лише 2 хвости з 10 фліпів цією справедливою монетою, ви можете обчислити цю ймовірність, як я це робив у гістограмі. З графіку видно, що ймовірність отримати 8 з 10 фліп із справедливою монетою приблизно приблизно 4,4 % .=H04.4%

Оскільки ми ставимо під сумнів справедливість монети, якби у нас було 9 або 10 хвостів, ми повинні включити ці можливості, хвіст тесту. Додаючи значення, ми отримуємо, що ймовірність зараз трохи більше отримання 2 хвостів або менше.5.5%

Тепер, якщо ми отримаємо лише 2 голови, тобто 8 голів (інший хвіст), ми, мабуть, так само готові поставити під сумнів справедливість монети. Це означає, що ви отримаєте ймовірність для двосхилого тесту .5.4...%+5.4...%10.9%

Оскільки ми в медицині зазвичай зацікавлені в вивченні невдач, нам потрібно включити протилежну сторону ймовірності, навіть якщо наш намір полягає в тому, щоб робити добро і застосовувати корисне лікування.

Мій графік монети, що гортає

Роздуми трохи поза темою

Цей простий приклад також показує, наскільки ми залежні від нульової гіпотези для обчислення р-значення. Мені також хочеться вказати на схожість між двочленною кривою та кривою дзвону. Змінюючись на 200 фліп, ви отримуєте природний спосіб пояснити, чому ймовірність отримати рівно 100 фліпів починає бракувати актуальності. Визначаючі інтервали, що цікавлять, є природним переходом до функцій функцій густини / маси та функції їх кумуляції.

У своєму класі я рекомендую їм відео зі статистикою академії Хана, а також використовую деякі його пояснення для певних понять. Вони також отримують гортання монет, де ми розглядаємо випадковість гортання монети - те, що я намагаюся показати, що випадковість є більш випадковою, ніж те, що ми зазвичай вважаємо, натхнене цим епізодом Radiolab .

Кодекс

У мене зазвичай є один графік / слайд, R-код, який я використовував для створення графіка:

library(graphics)

binom_plot_function <- function(x_max, my_title = FALSE, my_prob = .5, edges = 0, 
                                col=c("green", "gold", "red")){
  barplot(
    dbinom(0:x_max, x_max, my_prob)*100, 
    col=c(rep(col[1], edges), rep(col[2], x_max-2*edges+1), rep(col[3], edges)),
    #names=0:x_max,
    ylab="Probability %",
    xlab="Number of tails", names.arg=0:x_max)
  if (my_title != FALSE ){
    title(main=my_title)
  }
}

binom_plot_function(10, paste("Flipping coins", 10, "times"), edges=0, col=c("#449944", "gold", "#994444"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", "gold"))
binom_plot_function(10, edges=3, col=c(rgb(200/255, 0, 0), "gold", rgb(200/255, 100/255, 100/255)))

Чудова відповідь Макс - і дякую, що визнали нетривіальність мого запитання :)
Тал Галілі

+1 приємна відповідь, дуже ґрунтовна. Пробачте, але я збираюсь виправити дві речі. 1) значення p розуміється як ймовірність того, що дані будуть настільки ж крайніми або більш екстремальними, як і ваші під нулем, тому ваша відповідь правильна. Однак, коли ви використовуєте дискретні дані, такі як ваша монета, це недоцільно консервативно. Найкраще використовувати те, що називається "середнє значення p", тобто 1/2 ймовірність даних настільки ж екстремальна, як і ваша + ймовірність даних бути більш екстремальними. Просте обговорення цих питань можна знайти в Agresti (2007) 2.6.3. (продовж.)
gung - Відновіть Моніку

2) Ви заявляєте, що випадковість є більш випадковою, ніж ми вважаємо. Я можу здогадатися, що ви могли б мати на увазі під цим (я не мав можливості прослухати епізод Radiolab, який ви посилаєте, але я буду). Що цікаво, я завжди казав студентам, що випадковість є менш випадковою, ніж ви вірите. Я маю на увазі тут сприйняття смуг (наприклад, в азартних іграх). Люди вважають, що випадкові події повинні чергуватися набагато більше, ніж насправді випадкові події, і в результаті вони вважають, що вони бачать смуги. Див. Falk (1997) Виявлення випадковості Psych Rev 104,2. Знову ж таки, ви не помиляєтесь - лише їжа для роздумів.
gung - Відновіть Моніку

Дякую @gung за ваш внесок. Я насправді не чув про середню оцінку - хоча це має сенс. Я не впевнений, чи є це те, що я б зазначив, коли викладав основні статистичні дані, оскільки це може дати відчуття втрати практичного відчуття, яке я намагаюся дати. Щодо випадковості ми маємо на увазі точно те саме - коли ми бачимо справді випадкове число, нас обдурюють, думаючи, що існує його модель. Я думаю, що я чув на подкасті Freakonomics підступність передбачення, що ...
Макс Гордон

... людський розум з роками дізнався, що не виявити хижака коштує дорожче, ніж думати, що це, мабуть, нічого. Мені подобається ця аналогія, і я намагаюся сказати своїм колегам, що одна з головних причин використання статистики - це допомогти нам у цій ваді, з якою ми всі народжені.
Макс Гордон

9

Припустимо, ви хочете перевірити гіпотезу про те, що середній зріст чоловіків "5 футів 7 дюймів". Ви вибираєте випадкову вибірку чоловіків, вимірюєте їх висоту і обчислюєте середню вибірку. Ваша гіпотеза:

Н0:мк=5 фут 7 дюймів

НА:мк5 фут 7 дюймів

У наведеній вище ситуації ви робите тест з двома хвостами, як би відхилили свою нуль, якщо середня вибірка є занадто низькою або занадто високою.

У цьому випадку значення р представляє ймовірність реалізації середньої вибірки, яка знаходиться на рівні принаймні такою ж крайньою, як та, яку ми насправді отримали, припускаючи, що нуль насправді відповідає дійсності. Таким чином, якщо спостерігати за зразком означає "5 футів 8 дюймів", то значення p буде представляти ймовірність того, що ми будемо спостерігати висоти більше "5 футів 8 дюймів" або висоти менше "5 футів 6 дюймів" за умови нуля правда.

Якщо, з іншого боку, ваша альтернатива була поставлена ​​так:

НА:мк>5 фут 7 дюймів

У наведеній вище ситуації ви б провели односторонній тест з правого боку. Причина полягає в тому, що ви вважаєте за краще відхилити нуль на користь альтернативи лише в тому випадку, якщо середній показник вибірки надзвичайно високий.

Інтерпретація p-значення залишається однаковою з тим незначним нюансом, що зараз ми говоримо про ймовірність реалізації середньої вибірки, що перевищує ту, яку ми отримали насправді. Таким чином, якщо спостерігати за вибіркою означає "5 футів 8 дюймів", то значення p буде представляти ймовірність того, що ми будемо спостерігати висоти, більші за "5 футів 8 дюймів", якщо нуль є істинним.


2
Раніше, на вашу секунду НА нуль повинен читати Н0:мк5 фут 7 дюймів, не Н0:мк=5 фут 7 дюймів. Дивіться один із коментарів @ whuber до цього питання: Чи мають нульові та альтернативні гіпотези вичерпні чи ні? .
chl

2
@chl Я згоден. Однак для людини, яка щойно знайомиться зі статистичними ідеями, повторне написання нуля для односхилого тесту може бути відволіканням уваги, коли фокус робиться на тому, як і чому змінюються речі щодо інтерпретації p-значення.
varty

1
Справедливо. Це варто згадати, хоча навіть з навчальною метою.
chl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.