Як перевірити на відмінності між двома груповими засобами, коли дані нормально не розподіляються?

19

Я усуну всі біологічні деталі та експерименти і навожу лише проблему, яку я маю на увазі, і що я зробив статистично. Я хотів би знати, чи є її право, а якщо ні, як діяти. Якщо дані (або моє пояснення) недостатньо зрозумілі, я спробую пояснити краще, редагуючи.

Припустимо, у мене є дві групи / спостереження, X і Y, розмірами і . Я хотів би знати, чи рівні засоби цих двох спостережень рівні. Перше моє запитання: $N_x=215$ $N_y=40$

Якщо припущення виконані, чи доречно тут використовувати параметричний двопробний тест? Я запитую це, тому що, наскільки я розумію, його зазвичай застосовують, коли розмір невеликий?
Я побудував гістограми як X, так і Y, і вони зазвичай не були розподіленими, що є одним із припущень двопробного t-тесту. Моя плутанина в тому, що я вважаю їх двома групами, і тому я перевірив нормальний розподіл. Але тоді я збираюся виконати тест з двома зразками ... Це правильно?
З теореми про центральну межу я розумію, що якщо ви будете проводити вибірку (з / без повторення залежно від розміру вашої сукупності) кілька разів і щоразу обчислювати середнє значення для зразків, то воно буде приблизно нормально розподілене. І, середнє значення цих випадкових величин буде хорошою оцінкою середньої сукупності. Отже, я вирішив зробити це і в X, і в 1000 разів, і отримав зразки, і призначив випадкову змінну в середньому для кожного зразка. Сюжет був дуже нормально розподілений. Середнє значення X і Y склало 4,2 і 15,8 (що було таким же, як і населення + - 0,15), а дисперсія становила 0,95 і 12,11.
Я провів t-тест на цих двох спостереженнях (по 1000 точок даних у кожному) з неоднаковими відхиленнями, оскільки вони дуже різні (0,95 та 12,11). І нульова гіпотеза була відхилена.
Це взагалі має сенс? Чи достатній цей правильний / осмислений підхід або двопробний z-тест чи це абсолютно неправильно?
Я також провів непараметричний тест Вілкоксона, щоб бути впевненим (на оригіналах X і Y), і нульова гіпотеза також була переконливо відкинута. У випадку, якщо мій попередній метод був абсолютно невірним, я вважаю, що непопараметричне тестування добре, крім статистичної потужності, можливо?

В обох випадках засоби суттєво відрізнялися. Однак я хотів би знати, чи один чи обидва підходи несправні / абсолютно неправильні, і якщо так, то яка альтернатива?

— Арун
джерело

21

Ідея про те, що t-тест призначений лише для невеликих зразків, є історичною перевагою. Так, спочатку він розроблявся для малих зразків, але в теорії немає нічого, що відрізняло б мале від великого. За часів, коли комп’ютери були звичайними для статистики, t-таблиці часто піднімалися лише на рівні близько 30 градусів свободи, а нормальні використовувались поза цим як близьке наближення розподілу t. Це було для зручності, щоб розмір таблиці був розумним. Тепер за допомогою комп'ютерів ми можемо робити t-тести на будь-який розмір вибірки (хоча для дуже великих зразків різниця між результатами z-тесту та t-тесту дуже мала). Основна ідея полягає у використанні t-тесту при використанні вибірки для оцінки стандартних відхилень і z-тесту, якщо відомі стандартні відхилення сукупності (дуже рідкісні).

Центральна гранична теорема дозволяє використовувати звичайний теоретичний умовивід (t-тести в цьому випадку), навіть якщо популяція нормально не розподіляється до тих пір, поки розміри вибірки досить великі. Це означає, що ваш тест є приблизним (але з розмірами вибірки, заявка має бути дуже хорошою).

Тест Вілкоксона не є випробуванням засобів (якщо ви не знаєте, що популяції ідеально симетричні та інші малоймовірні припущення). Якщо засоби є основною цікавою тодією, мабуть, найкраще навести тест t.

Зважаючи на те, що ваші стандартні відхилення настільки різні, а форми ненормальні та, можливо, різні між собою, різниця в засобах може бути не найцікавішою справою. Подумайте про науку і що ви хочете зробити зі своїми результатами. Чи приймаються рішення на рівні населення чи на індивідуальному рівні? Подумайте про цей приклад: ви порівнюєте 2 препарати для даної хвороби, з препаратом Половина зразка померла негайно, інша половина одужала приблизно за тиждень; на препараті В усі вижили і видужали, але час на одужання був довший тижня. У цьому випадку ви дійсно переймаєтесь тим, який середній час відновлення був коротшим? Або замініть половину померлих в А лише на те, що потрібно відновитись дуже довго (довше, ніж хтось із групи В).

— Грег Сніг
джерело

Дякую, Грег. Я припускаю, що немає нічого поганого в процедурі як такої? Я розумію, що я можу не задати правильного питання, але я хвилююсь однаково щодо статистичного тесту / процедури та розуміння самих двох вибірок. Я перевірю, чи задаю я правильне запитання, і повернусь із запитаннями, якщо такі є. Можливо, якщо я поясню біологічну проблему, це допомогло б отримати більше пропозицій. Знову дякую.

— Арун

5

Одне доповнення до вже дуже вичерпної відповіді Грега.

Якщо я вас зрозумів правильно, у пункті 3 зазначено таку процедуру:

$n$ $X$
$m$ $n$
Повторіть це 1000 разів, збережіть відповідні засоби
$X$

Тепер ваше припущення полягає в тому, що для цього означає центральну граничну теорему, і відповідна випадкова величина буде нормально розподілена.

Можливо, давайте подивимось на математику, що стоїть за вашим обчисленням, щоб виявити помилку:

$X$ $X_1,\ldots,X_n$ $X_1,\ldots, X_n\sim X$ $m$ $k$

Y_{к} = \frac{1}{м} \sum_{i = 1}^{м} Х_{{мк}_{i}^{к}}

$Y_k=\frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$\mu^k_i$ $n$ $i$

\frac{1}{1000} \sum_{к = 1}^{1000} \frac{1}{м} \sum_{i = 1}^{м} Х_{{мк}_{i}^{к}}

$\frac{1}{1000}\sum_{k=1}^{1000} \frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$X_i$ $1000m$ $1000m$ $X_i$

Однак тепер теорема про центральний межа визначає, що сума безлічі незалежних випадкових величин приблизно нормальна. (Це призводить до того, що середнє значення є приблизно примірним).

Ваша сума вище не дає незалежних зразків. Можливо, у вас є випадкові ваги, але це зовсім не робить ваші зразки незалежними. Таким чином, процедура, написана в 3, не є законною.

$t$

— Тіло
джерело

Дякую. Здається, t-test вже вирішує проблему за допомогою CLT (з відповіді greg, яку я не помітив). Дякую за те, що вказав на це, і за чітке пояснення 3), що я насправді хотів знати. Мені доведеться вкласти більше часу, щоб зрозуміти ці поняття.

— Арун

2

Майте на увазі, що CLT працює по-різному в залежності від розповсюдженого розподілу (або, що ще гірше, очікуваного значення або дисперсії розподілу не існує - тоді CLT навіть не дійсний). Якщо ви сумніваєтесь, завжди корисно створити дистрибутив, схожий на той, який ви спостерігали, а потім змоделювати тест, використовуючи цей розподіл у кілька сотень разів. Ви отримаєте відчуття якості поставок наближення CLT.

— Тило