-test В.С. -test для порівняння шансів підхопити застуду в 2 -х групах


12

Я просто читав у досить шанованому (популярному) науковому журналі (німецький прем’єр, 02/2013, с.36) про цікавий експеримент (без джерела, на жаль). Це привернуло мою увагу, тому що інтуїтивно я сумнівався у важливості результату, але надана інформація була достатньою для відтворення статистичного тестування.

Дослідники задалися питанням, чи збільшує холодність у холодну погоду шанси застудитися. Тож вони випадковим чином розділили групу з 180 учнів на дві групи. Одна група повинна була потримати ноги в холодній воді протягом 20 хвилин. Інші тримали взуття. Я маю на увазі смішну маніпуляцію, але з іншого боку я не лікар і, можливо, лікарі вважають смішним. Етичні питання осторонь.

У будь-якому випадку через 5 днів у 13 студентів групи лікування було застуджено, але лише 5 - у групі, яка тримала взуття. Коефіцієнт шансів цього експерименту, таким чином, становить 2,87.

Враховуючи досить невеликий розмір вибірки, я почав цікавитись, чи може ця різниця бути значною. Тому я провів два тести.

Спочатку простий тест рівності пропорцій за допомогою нормального наближення. Цей тест має з . Я здогадуюсь, що це те, що перевірили дослідники. Це справді просто важливо. Однак цей z-тест справедливий лише для великих зразків, якщо я не помиляюся, через нормальне наближення. Крім того, рівень поширеності досить малий, і мені цікаво, чи це може не впливати на рівень покриття довірчого інтервалу ефекту.p = 0.0468z=1.988p=0.0468

Тож моя друга спроба була тестом на чи-квадрат незалежності, як з імітацією Монте-Карло, так і зі стандартним квадратом Пірсона. Тут я знаходжу значення як про .p=.082

Тепер це все не так заспокоює результати. Мені було цікаво, чи є більше варіантів тестування цих даних та які ваші думки щодо двох тестів (зокрема, припущення першого, важливого, тесту)


Я вважаю, що ви здійснили корекцію безперервності за статистикою хі-квадрата Пірсона, яка пояснює невідповідність p-значень.
Scortchi

Відповіді:


13

Я б використав тест перестановки замість нормального наближення чи квадрат-чі. Тест на перестановку є точним і найпотужнішим, обумовленим даними.

У цьому випадку ми не можемо обчислити всі перестановки груп, але ми можемо створити безліч випадкових перестановок даних і отримати досить точне значення:

group <- c(rep("A",90),rep("B",90))
n_a <- rep(0,100000)
for (i in 1:length(n_a)) {
   temp <- sample(group, size=18)
   n_a[i] <- sum(temp == "A")
}
> mean(n_a >= 13)
[1] 0.03904

що означало б р-значення 0,039.

ЯКЩО, і це велике, однак, я здогадуюсь, що припущення про те, що суб'єкти, які застудилися, є незалежними подіями, порушено. Ці особи - студенти, імовірно, в одній школі. Уявіть, що двоє з них поділяють клас, чи гуртожиток, чи якусь іншу діяльність, або кафетерію (у школі з кількома кафетеріями); події "№1 застудився" та "№2 застудився" не є незалежними. Я міг уявити, що студент скаже "давайте підпишемось на цей експеримент!" до свого / її сусідки по кімнаті чи друзів; Я міг уявити, що студентів набирали з класів, які викладали професори; Я міг уявити безліч способів, коли припущення про незалежність порушено. Можливо, документ, який я не читав, стосується деяких із них, але важко зрозуміти, як він міг би вирішити їх усі,


Дякую @jbowman - крім того, ви провели однобічний тест, я бачу. Я думаю, що це має більше сенсу, ніж використовувані двосторонні тести. Якщо нормальне наближення робиться одностороннім, значення p на 0023 вище. Мені подобається позиція про незалежність. Ймовірно, студенти також не були ізольованими, коли тримали ноги у воді, тож це також спосіб передачі застуди.
tomka

(+1) Але варто зазначити, що вам не потрібно імітувати: розподіл вашої тестової статистики слід за гіпергеометричним розподілом під нульовою гіпотезою (та обумовленням граничних підсумків). Це точний тест Фішера.
Scortchi

11

@jbowman дав вам хороший варіант. Я подумав, що я можу надати деяку інформацію стосовно ваших чітких питань щодо відповідності -test порівняно з тестом . χ 2zχ2

z -test:

Існує два занепокоєння щодо доцільності використання -test, обидва щодо того, чи є правильний припущений розподіл вибірки. По-перше, -test використовує звичайний розподіл замість -розподілу, маючи на увазі, що стандартні відхилення відомі без помилки вибірки. По-друге, розподіл вибірки є безперервним, але дані дискретні; Оскільки можливі лише певні комбінації даних, можливі лише певні отримані в результаті реалізовані статистичні значення тесту, які можуть не повністю відповідати теоретичному розподілу вибірки. (Я обговорюю це питання в контексті інших тестів тут: Порівняння та порівняння, p-значення, рівні значущості та помилка типу I. ) z tzzt

Розглянемо перше занепокоєння в іншому контексті. Якщо у вас є дві групи з нормально розподіленими даними, і ви хочете побачити, чи засоби рівноцінні, вам потрібно обчислити як засоби, так і стандартні відхилення. Тепер ми знаємо, що засоби підлягають помилці вибірки, тому нам потрібно зробити тест, а не просто сказати, що ці два вибіркові засоби не однакові. Однак наші оцінки стандартних відхилень також повинні піддаватися помилці вибірки, і ми повинні якось враховувати цей факт. Коли ми це робимо, виявляється, що тестова статистика (різновид масштабованої середньої різниці) розподіляється як . Якщо ми замість цього використали звичайний розподіл (тобтоz ztz-тест), це означало б, що ми припускаємо, що наші оцінки стандартних відхилень без помилок - ідеальні. То чому б -test можна використовувати у вашому випадку? Причина полягає в тому, що ваші дані є двочленними (тобто числом «успіхів» із відомого загального числа «випробувань»), а не нормальними. У двочленному розподілі стандартне відхилення є функцією середнього значення, тому після того, як ви оцінили середнє значення, додаткової невизначеності не потрібно турбуватися. Таким чином, нормальний розподіл може бути використаний як модель розподілу вибірки тестової статистики. z

Хоча використання звичайного розподілу для розуміння тривалої поведінки тестової статистики є технічно правильним, виникає інше питання. Проблема полягає в тому, що нормальний розподіл є безперервним, але, оскільки ваші дані дискретні, не всі значення теоретичного розподілу можуть бути знайдені у вашому наборі даних. (Знову ж , я обговорюю це питання значно більш детально в вище пов'язаний відповіді.) До щастя, матч між можливими результатами ваших даних і теоретичним нормальним розподілом вибірки стає краще, чим більше ваш . У вашому випадку, незалежно від справжньої основної ймовірності, у вас може бути стільки, скільки всіх успіхів або стільки ж, скільки жодного у кожній групі. Це означає, що кількість можливих комбінацій становить91 × 91 = 1 ,NN = 180 z91×91=1,729, що є безліч можливостей. Маючи невеликий набір даних, ви дійсно можете зіткнутися з деякими видами проблем, про які я обговорюю у своїй пов'язаній відповіді, але з вам не надто турбуватися. Я вважаю, що -test був вірним вибором для дослідників. N=180z

χ2 -тест:

Але що з ? Я думаю, що це також правильний вибір, але це був би не мій перший вибір. (Дозвольте мені зазначити, що другого питання, обговореного вище - невідповідність між дискретними даними та безперервним розподілом посилань - стосується так само, як до -test, як і до -test, тому існує тут немає переваги.) Проблема зχ 2 z χ 2 χ 2 z zχ2χ2zχ2-тест полягає в тому, що він не передбачає, що є щось особливе щодо підсумків стовпців щодо підсумків рядків; обидва трактуються так, ніби вони могли бути іншими можливими значеннями. Однак це не відображає точно встановлення експерименту. Налічувалося 180 осіб, і 90 було призначено до кожної групи. Єдине, що дійсно відрізнятиметься від повторних однакових досліджень, - це кількість людей, які застудилися в кожній групі. -TEST неправильно трактує як кількість застуд і кількість людей в кожній групі , як якщо б вони могли змінюватися, але -test робить правильне припущення. Тому -test має тут більше потужності. χ2zz

Для чого це варто, тест перестановки, запропонований @jbowman, також отримує цей аспект вашого дизайнерського права і не страждає від проблеми дискретного безперервного невідповідності. Таким чином, це найкращий варіант. Але я подумав, що ви, можливо, хочете дізнатися трохи більше про те, як - і -тести порівнюються у вашій ситуації. χ 2zχ2


Дякую @gung, я дуже ціную ваші зусилля. Це робить речі зрозумілішими.
tomka

@gung Мене бентежить - квадрати чи пропорції z однакові чи ні? stats.stackexchange.com/questions/173415/…
Xavier Bourret Sicotte

@XavierBourretSicotte, z-тест часто реалізовується під кришкою, як тест-чи-квадрат, R робить це, наприклад. Я все ще часто вважаю за краще використовувати z-тест, оскільки інформація подається таким чином, що відповідає розумінню того, що 1 змінна є коваріатною, а інша - відповіддю.
gung - Відновити Моніку

1
+1 нуль); інший - тест Уолда (в якому дисперсія в знаменнику обчислюється при оцінці максимальної ймовірності різниці в двох пропорціях).
Scortchi

@Scortchi спасибі за роз’яснення цього! Це вперше я натрапив на таке явне пояснення різниці - чи зможете ви зв’язати місця, де пояснюються два підходи? З відповідними формулами для дисперсії?
Xavier Bourret Sicotte
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.