Неоднакові розміри вибірки: Коли її дзвонити, вона припиняється


14

Я рецензую статтю академічного журналу, і автори написали наступне як обґрунтування того, що не повідомляють про будь-яку інфекційну статистику (я визначив характер двох груп):

В цілому 25 з 2349 (1,1%) респондентів повідомили X . Ми належним чином утримуємося від подання аналізів, які статистично порівнюють групу X з групою Y (інші 2324 учасники), оскільки ці результати можуть бути сильно спричинені випадковою ситуацією з результатом цього рідкісного.

Моє запитання, чи виправдані автори цього дослідження кидання в рушник щодо порівняння груп? Якщо ні, то що я можу їм рекомендувати?

Відповіді:


20

Статистичні тести не дають припущень щодо розміру вибірки. Звичайно, різні припущення є різними тестами (наприклад, нормальність), але рівність розмірів вибірки не одне з них. Якщо тест, який використовується, не підходить якимось іншим способом (зараз я не можу придумати проблему), на різко нерівні розміри групи не впливатиме рівень помилок типу I. Більше того, їх фразування означає (на мій погляд), що вони вірять, що так буде. Таким чином, вони плутаються з цих питань.

З іншого боку, частота помилок типу II дуже буде залежати від вкрай нерівномірного и. Це буде правдою незалежно від того, яким чином тест вплине на тест (наприклад, -test, Mann-Whitney -test або -test для рівності пропорцій). Для прикладу цього див. Мою відповідь тут: Як слід інтерпретувати порівняння засобів різних розмірів вибірки? Таким чином, вони цілком можуть бути «виправданими, кидаючи рушник» щодо цього питання. (Зокрема, якщо ви очікуєте, що ви отримаєте незначний результат, чи справжній ефект чи ні, в чому сенс тесту?) ntUz

Оскільки розміри вибірки розходяться, статистична потужність буде сходитися до . Цей факт насправді призводить до різних пропозицій, про які я підозрюю, що мало хто коли-небудь чув і, ймовірно, матиме проблеми з тим, щоб пройти минулих рецензентів (без образи) - компромісний аналіз влади . Ідея порівняно проста: у будь-якому аналізі потужності , , , і розмір ефекту існують у взаємозв'язку один з одним. Вказавши всі, крім одного, можна вирішити останнє. Зазвичай люди роблять те, що називається апріорним аналізом потужності , в якому ви вирішуєте дляααβn1n2dN(як правило, ви припускаєте, що ). З іншого боку, ви можете виправити n 1 , n 2 і d і вирішити для α (або еквівалентно β ), якщо ви вкажете відношення типу I до коефіцієнтів помилок типу II, з якими ви готові жити. Зазвичай α = .05 і β = .20 , тому ви говорите, що помилки типу I в чотири рази гірші за помилки типу I. Звичайно, даний дослідник може не погодитися з цим, але задавши задане співвідношення, ви можете вирішити, для чого αn1=n2n1n2dαβα=.05β=.20αви повинні використовувати для того, щоб можливо підтримувати якусь адекватну потужність. Цей підхід є логічно обгрунтованим варіантом для дослідників у цій ситуації, хоча, я розумію, екзотичність такого підходу може змусити його продатись у більшій науковій спільноті, яка, напевно, ніколи не чула про таке.


Це неймовірно корисно. Я також знайшов вашу відповідь на те, як слід інтерпретувати порівняння засобів різних розмірів вибірки? корисно в моєму власному розумінні цього питання. Прочитавши вашу відповідь, я запропоную авторам можливість зробити компромісний аналіз потужності (це звучить як безпечна ставка, що вони не знайомі з цим) і, можливо, запропоную бути більш конкретним у своїх коментарях щодо занепокоєння щодо влади.
Аарон Герцог

2
Ласкаво просимо, @AaronD. На мою думку, ви обов'язково повинні заохотити їх змінити фразу як мінімум, оскільки це або вводить в оману, або означає, що вони неправильно розуміють тему. Я б прогнозував, що вони не намагатимуться компромісного аналізу потужності, але вони також можуть просто повідомити описову статистику (засоби та SD) та розмір ефекту з / відповідними довірчими інтервалами.
gung - Відновіть Моніку

6

Хоча відповідь від @gung відмінна, я думаю, що є одне важливе питання, яке слід враховувати, дивлячись на диво різні розміри групи. Як правило, до тих пір, поки всі вимоги тесту будуть виконані, різниця в розмірах групи не важлива.

Однак у деяких випадках різний розмір групи матиме драматичний вплив на надійність тесту проти порушень проти цих припущень. Класичний двопробний непарний t-тест, наприклад, передбачає дисперсію гомогенності та стійкий до порушень, лише якщо обидві групи мають однаковий розмір (у порядку величини). Інакше більша дисперсія в меншій групі призведе до помилок типу I. Зараз з t-тестом це не є великою проблемою, оскільки зазвичай використовується тест Вельча, і він не передбачає дисперсійної однорідності. Однак подібні ефекти можуть виникати і в лінійних моделях.

Підсумовуючи, я б сказав, що це аж ніяк не перешкоджає статистичному аналізу, але це потрібно пам’ятати, вирішуючи, як діяти.


8
Я вважаю, що суть справи тут полягає не в застосуванні тестів, а в їх значимості та інтерпретації. Питання стосується "респондентів". Це настійно говорить про можливість ненульової швидкості невідповіді. Навіть невеликий показник невідповіді (невелика частка одного відсотка) щодо розміру дослідження склав би величезний показник невідповіді щодо малої підгрупи. Це ставить під сумнів репрезентативність будь-якої цієї підгрупи. Як результат, це величезна перешкода будь-якому статистичному аналізу.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.