Наскільки надійним є тест незалежних зразків, коли розподіли зразків не є нормальними?


24

Я читав, що t -test є "досить надійним", коли розподіли зразків відходять від нормальності. Звичайно, важливим є розподіл вибірки різниць. У мене є дані для двох груп. Одна з груп сильно перекошена залежною змінною. Розмір вибірки досить малий для обох груп (n = 33 в одній і 45 в іншій). Чи слід вважати, що в цих умовах мій t- test буде стійким до порушень припущення про нормальність?


3
"Звичайно, важливі саме вибіркові розподіли відмінностей" - Відмінності в чому? Мені сподобалося відредагувати це питання, оскільки я боюся, що це введе в оману для майбутніх читачів (і дотичне до головного). Моя перша думка - це помилкова посилання на парний t- test, де ми вважаємо, що відмінності між парами є нормальними, але це не застосовується в незалежному тесті зразків. У нас навіть пар для різниці немає! Можливо, призначена "різниця в засобах"? Решта Q враховує нормальність двох вибірок, а не будь-які відмінності.
Срібна рибка

Питання про те, наскільки надійний t -test щодо таких порушень, є важливим і законним. Але пов'язане питання полягає в тому, що спочатку перевіряти наявність порушень у ваших даних, а вже потім вирішувати, чи застосовувати t -test чи якийсь альтернативний тест, не рекомендується. Така багатоетапна процедура має невизначені експлуатаційні характеристики. Дивіться цю тему: Принциповий метод вибору між t-тестом або непараметричним, наприклад, Wilcoxon у малих зразках
Silverfish

Що є надійним джерелом? (Я вважаю, що ми обидва погоджуємось, що немає офіційного джерела). Ми дивимось на рівень стійкості чи також потужність? І якщо "також влада" ... про яку альтернативу ми говоримо ?
Glen_b -Встановіть Моніку

@Glen_b Вибачте, повідомлення про щедрості офіційних джерел явно більше для StackOverflow! Я просто вважаю, що ця тематика практично важлива (плюс досить великий трафік та бідність у Вікіпедії), щоб заслужити кілька цитат. Шаблон із щедротою "канонічна відповідь" був би недоречним, як це чітко видно з відповіді Пітера Флома. У мене виникає відчуття, що на цю тему є "загальна частина знань" - якби мене не задали цей Q-запит, мій список був би схожий на Даллал (я додав би куртоз, але не ризикнув би рівним розміром вибірки захищає проти загальної ненормативності)
Срібна рибка

@Glen_b Ваша відповідь міняє подібну жилу, тому, здається, є деякі основні моменти, широко відомі / прийняті. Мій ступінь охоплював припущення, але не наслідки порушення: мої знання базуються на різних джерелах, розбиті по шматочках та бобі ("статистичні дані для психологів" книги можуть приділяти більше уваги наслідкам, ніж багато текстів теорії статистики) - інакше я б розмістив відповідь не щедрість! Якщо хтось знає гідне резюме на одній сторінці в хорошому підручнику, це могло б зробити мені чудово. Якщо це кілька паперів з результатами моделювання, це теж добре. Будь-які майбутні читачі могли б посилатися та цитувати.
Срібна рибка

Відповіді:


16

На питання про надійність дуже важко відповісти - адже припущення можуть бути порушені настільки багато, і в кожному напрямку в різній мірі. Імітаційна робота може відібрати лише невелику частину можливих порушень.

Враховуючи стан обчислень, я думаю, що часто варто витратити час на виконання як параметричного, так і непараметричного тесту, якщо вони є в наявності. Потім можна порівняти результати.

Якщо ви справді амбітні, ви навіть можете зробити тест на перестановку.

Що робити, якщо Алан Тьюрінг зробив свою роботу до того, як зробив це Рональд Фішер? :-).


1
Петре, ти надихнув мене писати історичну фантастику, щоб відповісти саме на це запитання!
Sycorax каже, що повернеться до Моніки

12

@PeterFlom своїм першим реченням вдарив цвях.

Я спробую дати приблизний підсумок того, що я бачив (якщо ви хочете посилань, це може бути деякий час):

Загалом, два вибіркових t-тесту є достатньо міцними до симетричної ненормативності (справжній коефіцієнт помилок типу I-я дещо впливає на куртоз, на потужність в основному впливає).

Коли два зразки м'яко перекошені в одному напрямку, односхилий t-тест більше не є об'єктивним. T-статистика перекошена протилежно розподілу і має набагато більше потужності, якщо тест знаходиться в одному напрямку, ніж якщо він знаходиться в іншому. Якщо вони перекошені в протилежні сторони, на рівень помилок типу I можуть сильно вплинути.

Сильна косостість може мати більший вплив, але, загалом кажучи, помірне косостість з двостороннім тестом не надто поганий, якщо ви не заперечуєте, щоб ваш тест по суті виділяв більше його сили в одному напрямку, ніж іншому.

Коротше кажучи - двоступеневий двопробний t-тест є досить надійним для таких речей, якщо ви можете терпіти певний вплив на рівень значущості та легкий ухил.

Однак існує багато, багато способів, щоб розповсюдження було ненормативним, але ці коментарі не охоплені.


Я не впевнений, що правильно сказати, що це досить потужно! Це розумно надійний рівень, рівень значущості буде приблизно коректним, але, наприклад, тести на вілкоксон можуть мати набагато більшу потужність для альтернатив, досить близьких до нормальності, які важко виявити. Це також залежить від таких факторів, як, наприклад, якщо в кожній групі є однакова кількість спостережень: стійкість набагато крихкіша в нерівній-російській справі!
kjetil b halvorsen

1
@kjetilbhalvorsen Дослідження, які я бачив - включаючи деякі симуляції, які я робив сам (і я не дивився ні на що добре; ви, можливо, добре бачили те, чого я не мав), більшість ефектів на владу здавалося в основному штовхає рівень вгору і вниз (що не вплинуло на Вілкоксона). Враховуючи загально хороші енергетичні властивості Вілкоксона в цих умовах (особливо з важкими хвостами), цього достатньо, щоб Вілкоксон виграв потужність - якщо ви регулюєте рівні, щоб вони були подібними, мене це здивувало, наскільки добре зробив.
Glen_b -Встановити Моніку

7

@PeterFlom вже згадував, що симуляційні дослідження ніколи не можуть охопити всі сценарії та можливості і тому не можуть привести до однозначної відповіді. Однак я все ще вважаю корисним фактично вивчити подібну проблему, проводячи деякі симуляції (це також трапляється саме той тип вправ, який я люблю використовувати, коли впроваджую студентам ідею симуляційних досліджень в Монте-Карло). Отже, давайте насправді спробуємо це. Я буду використовувати R для цього.

Кодекс

n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1

iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)

for (i in 1:iters) {

   ### normal distributions
   x1 <- rnorm(n1, mu1, sd1)
   x2 <- rnorm(n2, mu2, sd2)
   p1[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the right
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p2[i] <- t.test(x1, x2)$p.value

   ### both variables skewed to the left
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p3[i] <- t.test(x1, x2)$p.value

   ### first skewed to the left, second skewed to the right
   x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
   x2 <- (rchisq(n2, df=1) - 1)/sqrt(2)      * sd2 + mu2
   p4[i] <- t.test(x1, x2)$p.value

   ### first skewed to the right, second skewed to the left
   x1 <- (rchisq(n1, df=1) - 1)/sqrt(2)      * sd1 + mu1
   x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
   p5[i] <- t.test(x1, x2)$p.value

}

print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))

Пояснення

  1. Спочатку ми встановлюємо розмір групи ( n1і n2), справжня група означає ( mu1і mu2), а справжні стандартні відхилення ( sd1і sd2).

  2. Потім ми визначаємо кількість ітерацій для запуску та налаштовуємо вектори для зберігання p-значень у.

  3. Потім я імітую дані за 5 сценаріями:

    1. Обидва розподіли в нормі.
    2. Обидва розподіли перекошені праворуч.
    3. Обидва розподіли перекошені зліва.
    4. Перший розподіл перекошений вліво, другий праворуч.
    5. Перший розподіл перекошений вправо, другий вліво.

    Зауважте, що я використовую хі-квадратні розподіли для генерації перекошених розподілів. З одним ступенем свободи це сильно перекошені розподіли. Оскільки істинна середня величина та дисперсія розподілу в квадратному чи з однією ступенем свободи дорівнює відповідно 1 та 2 ( див. Вікіпедія ), я перерозподіляю ці розподіли, щоб спочатку було середнє значення 0 та стандартне відхилення 1, а потім змінив їх масштаб, щоб мати значення бажане справжнє середнє і стандартне відхилення (це можна зробити за один крок, але зробити це таким чином може бути зрозуміліше).

  4. У кожному випадку я застосовую t-тест (версія Welch - можна, звичайно, також розглянути версію Student, яка передбачає однакові відхилення у двох групах) і зберегти p-значення для векторів, встановлених раніше.

  5. Нарешті, коли всі ітерації завершені, я обчислюю для кожного вектора, наскільки часто р-значення дорівнює або нижче .05 (тобто тест є "значущим"). Це емпірична швидкість відхилення.

Деякі результати

  1. Моделюючи точно так, як описано вище, виходить:

       p1    p2    p3    p4    p5 
    0.049 0.048 0.047 0.070 0.070
    

    Отже, коли косостість знаходиться в одному напрямку в обох групах, показник помилок типу I виявляється досить близьким до добре керованого (тобто він досить близький до номінального α=.05). Коли перекос знаходиться в протилежних напрямках, спостерігається незначна інфляція в коефіцієнті помилок типу I.

  2. Якщо ми змінимо код на mu1 <- .5, то отримаємо:

       p1    p2    p3    p4    p5 
    0.574 0.610 0.606 0.592 0.602
    

    Таким чином, порівняно з випадком, коли обидва розподілу є нормальними (як передбачає тест), потужність насправді виявляється трохи більшою, коли косостість знаходиться в одному напрямку! Якщо вас це здивує, ви, можливо, захочете повторити це кілька разів (звичайно, щоразу отримуючи дещо інші результати), але закономірність залишиться.

    Зауважимо, що ми повинні бути обережними при інтерпретації емпіричних значень потужності за двома сценаріями, коли косостість знаходиться в протилежних напрямках, оскільки частота помилок типу I не зовсім номінальна (як крайній випадок, припустимо, я завжди відкидаю незалежно від даних, покажіть; тоді я завжди матиму тест з максимальною потужністю, але, звичайно, тест також має досить завищений показник помилок типу I).

Можна почати досліджувати діапазон значень для mu1mu2- але що насправді має значення - різниця між цими двома) і, що ще важливіше, почати змінювати справжні стандартні відхилення двох груп (тобто, sd1і sd2) і особливо робити їх нерівними. Я також дотримувався розмірів вибірки, згаданих ОП, але, звичайно, це можна було б також відрегулювати. І косоокість може, звичайно, приймати багато інших форм, ніж те, що ми бачимо в розподілі чі-квадрата з однією ступенем свободи. Я все ще думаю, що підходити до цього способу корисно, незважаючи на те, що він не може дати однозначної відповіді.


2
Оскільки в наш час існує маса надійних напівпараметричних методів, чому це обговорення так варте?
Френк Харрелл

(+1) Я думаю, що, можливо, варто було б включити випадок, коли один зразок був узятий із перекошеної сукупності, а другий - ні, оскільки це, на думку ОП, може статися з їхніми даними. Але приємно бачити відповідь з явним кодом. (Невелике узагальнення фактично дозволить читачеві дослідити, наскільки надійні методи порівняно із традиційним t-тестом, що є корисною педагогічною вправою, якщо ви намагаєтесь навчити когось небезпеки застосування тесту, припущення якого порушено. .)
Срібна рибка

2

У вашій ситуації t-тест, швидше за все, буде надійним щодо рівня помилок типу I, але не рівня помилок типу II. Ви, мабуть, доможетеся більшої потужності за допомогою а) тесту Крускаля-Уолліса, або б) нормалізуючого перетворення перед t-тестом.

Я засновую цей висновок на двох дослідженнях Монте-Карло. У першому ( Khan & Rayner, 2003) ) опосередковано маніпулювали перекосом та куртозом через параметри сімейства розподілу g-і-k, і отриману потужність досліджували. Важливо, що потужність тесту Крускал-Уолліса була менш пошкоджена ненормальністю, особливо для n> = 15.

Кілька застережень / кваліфікацій щодо цього дослідження: Сила часто постраждала від високого куртозу, але на неї менше впливали перекоси. На перший погляд, ця модель може здатися менш актуальною для вашої ситуації, враховуючи, що ви відзначили проблему з перекосом, а не куртозом. Однак я ставлю на облік, що надлишковий куртоз також є крайнім у вашому випадку. Майте на увазі, що надлишковий куртоз буде принаймні таким же високим, як перекос ^ 2 - 2. (Нехай надлишок куртозу дорівнює 4-му стандартизованому моменту мінус 3, так що надлишок куртозу = 0 для нормального розподілу.) Зауважте також, що Хан та Рейнер ( 2003 р.) Досліджували ANOVA з 3 групами, але їх результати, ймовірно, узагальнюються до двопробного t-тесту.

Друге відповідне дослідження ( Beasley, Erikson, & Allison, 2009)) досліджували помилки типу I та II з різними ненормальними розподілами, такими як Chi-квадрат (1) та Вейбул (1, .5). Для розмірів вибірки щонайменше 25, t-тест адекватно контролював показник помилок типу I на або нижче номінального альфа-рівня. Однак потужність була найвищою або за тестом Крускала-Уолліса, або за допомогою раннього зворотного нормального перетворення на основі рангу (балів Блома), застосованого до t-тесту. Біслі та його колеги загалом заперечували проти нормалізуючого підходу, але слід зазначити, що нормалізуючий підхід контролював показник помилок типу I для n> = 25, а його потужність іноді трохи перевищувала потужність тесту Крускала-Уолліса. Тобто, нормалізуючий підхід здається перспективним для вашої ситуації. Деталі див. У таблицях 1 та 4 у їхній статті.

Список літератури:

Хан, А., і Рейнер, GD (2003) . Надійна нестандартність загальних тестів для проблеми з багатьма вибірками. Журнал прикладної математики та наук про рішення, 7 , 187-206.

Beasley, TM, Erickson, S., & Allison, DB (2009) . Обернені нормальні перетворення на основі рангового рівня все більше використовуються, але чи заслуговують вони? Поведінкова генетика, 39 , 580-595.


(надлишок) куртозкосий2-2вірно для населення; чи правда це також для оцінок з вибірки?
Срібна рибка

Це здається питанням, гідним власної нитки. Можливо, ваше занепокоєння полягає в тому, що надлишковий куртоз буде зменшуватися вниз у невеликих пробах? Звичайно, це було і в симуляційних дослідженнях, зазначених вище, і куртоз все ще спричиняв низьку потужність t-тесту в тих ситуаціях. Ваше запитання вказує на більш загальне обмеження більшості досліджень в Монте-Карло: висновки часто базуються на характеристиках населення, характеристиках, яких прикладний дослідник не може спостерігати. Було б корисніше мати можливість передбачити відносну потужність на основі перекосу зразка, куртозу тощо
Ентоні

Я опублікував окреме запитання щодо цього питання: stats.stackexchange.com/questions/133247/…
Ентоні

0

Перш за все, якщо ви припускаєте, що розподіл двох вибірок різний, переконайтеся, що ви використовуєте версію t-тесту Велча, яка передбачає неоднакові відмінності між групами. Це хоча б спробує врахувати деякі відмінності, які виникають через розподіл.

Якщо ми подивимось на формулу тесту Велча:

т=Х¯1-Х¯2сХ¯1-Х¯2

де сХ¯1-Х¯2 є

сХ¯1-Х¯2=с12н1+с22н2

ми можемо бачити, що кожного разу є s ми знаємо, що дисперсія враховується. Уявімо, що дві дисперсії насправді однакові, але одна перекошена, що призводить до різної оцінки дисперсії. Якщо ця оцінка дисперсії насправді не є репрезентативною для ваших даних через перекос, фактично ефект зміщення по суті буде квадратним коренем цього зміщення, поділеним на кількість точок даних, використаних для його обчислення. Таким чином, ефект поганих оцінок дисперсії трохи приглушений квадратним коренем і вищим n, і тому, мабуть, існує консенсус, що він залишається надійним тестом.

Інша проблема перекошених розподілів полягає в тому, що підрахунок середнього значення також буде зачіпатися, і це, мабуть, де реальні проблеми порушень припущення тесту, оскільки засоби відносно чутливі до перекосу. А надійність тесту можна визначити приблизно шляхом обчислення різниці в засобах порівняно з різницею в медіанах (як ідея). Можливо, ви навіть можете спробувати замінити різницю в засобах різницею медіанів в t-тесті як більш надійну міру (я впевнений, що хтось це обговорював, але я не зміг знайти щось в Google, щоб досить швидко зв’язатися з ним).

Я б також запропонував запустити тест на перестановку, якщо все, що ви робите, - це t-тест. Перестановочний тест - це точний тест, незалежний від припущень щодо розповсюдження. Найголовніше, що тести на перестановку і t-тест приведуть до однакових результатів, якщо будуть допущені припущення параметричного тесту . Отже, міра стійкості, яку ви шукаєте, може бути 1 - різниця між перестановковими та t-тестовими р-значеннями, де оцінка 1 передбачає ідеальну стійкість, а 0 означає, що вона не є надійною.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.