Чи потрібний мінімальний розмір вибірки, щоб t-тест був дійсним?


70

Зараз я працюю над документом про квазіекспериментальні дослідження. Я маю розмір вибірки лише 15 через низьку кількість населення в обраній області, і лише 15 відповідають моїм критеріям. Чи 15 мінімальний розмір вибірки для обчислення для t-тесту та F-тесту? Якщо так, то де я можу отримати статтю чи книгу, щоб підтримати цей невеликий розмір зразка?

Цей документ вже був захищений минулого понеділка, і одна з панелей попросила мати підтримку, оскільки розмір моєї вибірки занадто низький. Він сказав, що це повинно бути принаймні 40 респондентів.


4
Розмір вибірки може бути значно меншим за 15, якщо припущення мають місце. Чи справедливість t-розподілу була єдиною причиною, коли він запропонував більшу вибірку?
Glen_b

Просто для уточнення, який тит-тест ви виконуєте: один зразок, парний зразок або два зразка.
Джеромі Англім

26
Історично найперша демонстрація t-тесту (у статті "Студент" за 1908 рік) була в заявці на вибірки розмірів чотири . Дійсно, отримання покращених результатів для невеликих зразків є твердженням тесту про те, що: коли розмір вибірки досягає 40 або більше, t-тест істотно не відрізняється від z-тестів, які дослідники застосовували протягом 19 століття. Ви можете поділитися сучасною версією цього документу з членом колегії: york.ac.uk/depts/maths/histstat/student.pdf . Вкажіть на розслідування у розділі VI, стор. 14-18.
whuber

10
Але вам слід задуматися над тим, що невеликі розміри вибірки, такі як 4 роботи, тому що студент мав високоякісні дані: дані хімічної лабораторії, експерименти, а не квазіексперименти. Ваша основна проблема полягає не в розмірі вибірки, а в репрезентативності: як ви знаєте, що ваші дані репрезентують що-небудь?
kjetil b halvorsen

10
@CzarinaFrancoise Чому ми обмежимо себе наукою <10 років?
RioRaider

Відповіді:


56

Немає мінімального розміру вибірки для тесту t. Дійсність вимагає, щоб припущення для статистики тесту були дотриманими приблизно. Ці припущення є в одному випадку вибірки, що дані є нормальними (або приблизно нормальними) із середнім значенням 0 під нульовою гіпотезою та дисперсією, яка невідома, але оцінена з вибірки. У двох випадках вибірки відбувається так, що обидва зразки є незалежними один від одного, і кожен зразок складається з iid нормальних змінних, причому обидва зразки мають однакове середнє значення і спільну невідому дисперсію під нульовою гіпотезою. Об'єднана оцінка дисперсії використовується для статистики.

В одному прикладі вибірки розподіл за нульовою гіпотезою є центральним t з n-1 ступенем свободи. У двох вибіркових випадках з розмірами вибірки n та m необов'язково дорівнює нульовому розподілу тестової статистики t з n + m-2 ступенями свободи. Підвищена мінливість через низький розмір вибірки пояснюється розподілом, який має більш важкі хвости, коли ступінь свободи низька, що відповідає низькому розміру вибірки. Тож критичні значення можуть бути знайдені для тестової статистики, щоб мати заданий рівень значущості для будь-якого розміру вибірки (ну, принаймні, для розміру 2 або більше).

Проблема з низьким розміром вибірки стосується потужності тесту. Рецензент, мабуть, вважав, що 15 в групі не є достатньо великим розміром вибірки, щоб мати високу потужність виявлення значущої різниці скажімо дельти між двома засобами або середнього значення, ніж дельта в абсолютному значенні для однієї задачі вибірки. Потреба 40 потребує уточнення певної потужності на певній дельті, яка досягається при n рівній 40, але не нижче 40.

Додам, що для того, щоб проводити тест t, зразок повинен бути достатньо великим, щоб оцінити дисперсію або відхилення.


2
Але важлива примітка полягає в тому, що тест є дійсним, навіть якщо дані не є приблизно нормальними, якщо розмір вибірки досить великий. Обґрунтування трохи навпаки (теорема Слуцького + розподіл t наближається до нормального), а обґрунтування для використання на z-тесті - лише те, що воно є більш консервативним у менших зразках. Але важливо зауважити, що, якщо ми підозрюємо ненормальність, великі зразки можуть врятувати нас!
Кліф АВ

1
@CliffAB Під "дійсним" я припускаю, що ви маєте на увазі "має приблизно правильний рівень значущості, в обмеженні як n \ to \ infty". Але, як правило, людей хвилює більше, ніж рівень помилок I типу (особливо, коли він може бути досить розумно близьким для зразків, які можуть бути більшими, ніж будь-який розмір вибірки, який можна отримати). Відносна асимптотична ефективність може бути дуже поганою, тому потужність проти малих ефектів у великих зразках може бути дуже поганою порівняно з альтернативними варіантами, навіть коли рівень помилок типу I стає таким, яким він повинен бути ..
Glen_b

33

З усією повагою до нього він не знає, про що йде мова. Т-тест був розроблений для роботи з невеликими зразками. Насправді немає мінімуму (можливо, ви можете сказати мінімум 3 для однопробного t-тесту, IDK), але ви маєте занепокоєння щодо достатньої потужності з невеликими пробами. Можливо, вам буде цікаво почитати про ідеї компромісного аналізу потужності, коли можливий розмір вибірки сильно обмежений, як у вашому випадку.

Щодо посилання, яке підтверджує, що ви можете використовувати t-тест з невеликими зразками, я не знаю жодного, і я сумніваюся, що він існує. Чому хтось намагався б це довести? Ідея просто нерозумна.


6
+1 (вам і Михайлу). Цікаво, що вам навіть не потрібно два спостереження, щоб зробити висновки, якщо готові зробити набір припущень!
Енді Ш

4
Причина t-тесту в малій вибірці полягає в тому, що навіть коли зразки є нормальними, якщо стандартне відхилення невідоме, звичайне, що потрібно зробити, нормалізується шляхом ділення на вибіркову оцінку на стандартне відхилення. У великих зразках ця оцінка буде достатньо близькою до стандартного відхилення популяції, що статистика тесту буде приблизно стандартною нормою, але в невеликій вибірці вона матиме більш важкі хвости, ніж нормальні.
Майкл Черник

5
Розподіл t з n-1 ступенями свободи - це точний розподіл для будь-якого розміру вибірки n під нульовою гіпотезою, і в малих зразках його потрібно використовувати замість нормального, що недостатньо наближає його. Справжня проблема з розміром вибірки, як і Гунг, і я заявила, це потужність. Якщо ви хочете сперечатися з арбітром, що 15 достатньо, вам потрібно визначити, наскільки велика різниця потрібна, щоб називатися значущою (дельта, яку я згадав), а потім для цієї дельти вам потрібно показати, що потужність достатня, наприклад, 0,80 або вище .
Майкл Черник

2
@CzarinaFrancoise Про n> = 30, див. Stats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
Оригінальний документ (1908!) студента @gung доводить, що ви можете використовувати t-тест з невеликими зразками. (Докладніше про це, будь ласка, зверніться до мого розширеного коментаря до початкового питання.)
whuber

30

Як зазначалося в існуючих відповідях, головне питання з невеликим розміром вибірки - це низька статистична потужність. Існують різні правила щодо того, що є прийнятною статистичною силою. Деякі люди кажуть, що 80% статистичної потужності є розумним, але, зрештою, краще - більше. Загалом існує також компроміс між вартістю залучення більшої кількості учасників та перевагою отримання більшої статистичної потужності.

Ви можете оцінити статистичну потужність при випробуванні з використанням простої функції в R, power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Таким чином, ми можемо побачити, що якби розмір ефекту населення був "малим" або "середнім", ви мали б низьку статистичну потужність (тобто 11% і 44% відповідно). Однак якщо розмір ефектів у населення великий, ви б мали те, що дехто би назвав "розумною" потужністю (тобто 82%).

Сайт Швидкий-р дає додаткову інформацію про аналіз потужності з використанням R .


Гарна відповідь! Також є гарне програмне забезпечення для обчислення статистичної потужності під назвою G * Power .
Енріке

7

Двопробний t-тест є дійсним, якщо два зразка є незалежними простими випадковими вибірками від нормальних розподілів з однаковою дисперсією і кожен з розмірів вибірки становить щонайменше два (щоб можна було оцінити відхилення сукупності.) не має значення щодо питання про достовірність тесту. Залежно від розміру ефекту, який хочеться виявити, невеликий розмір зразка може бути недоцільним, але невеликий розмір вибірки не може визнати недійсним тест. Зауважте також, що для будь-якого розміру вибірки середній розподіл вибірки є нормальним, якщо батьківський розподіл є нормальним. Звичайно, більші розміри вибірки завжди кращі, оскільки вони дають більш точні оцінки параметрів. Центральна гранична теорема говорить нам, що вибіркові засоби більш нормально розподілені, ніж окремі значення, але, як зазначають Казелла та Бергер, вона є обмеженою корисністю, оскільки швидкість наближення до нормальності повинна перевірятися в будь-якому конкретному випадку. Покладатися на великі правила - нерозумно. Дивіться результати, про які повідомляли книги Ранда Вілкокса.


5

Хоча це правда, що t-розподіл враховує невеликий розмір вибірки, я б припустив, що ваш арбітр замислювався над труднощами встановити нормальне поширення населення, коли єдина інформація, яку ви маєте, - порівняно невелика вибірка? Це може бути не величезною проблемою для вибірки розміром 15, оскільки, сподіваємось, вибірка є достатньо великою, щоб показати деякі ознаки неясно нормального розподілу? Якщо це правда, то, сподіваємось, чисельність населення також десь близька до норми, і в поєднанні з теоремою центрального ліміту, яка повинна дати вам вибіркові засоби, які досить добре поводяться.

Але я сумніваюся щодо рекомендацій використовувати t-тести для крихітних зразків (таких як розмір чотири), якщо тільки нормальність популяції не може бути встановлена ​​якоюсь зовнішньою інформацією чи механічним розумінням? Напевно не може бути десь поблизу достатньо інформації у вибірці розміром чотири, щоб мати якусь підказку як форму розподілу населення.


5

Розглянемо наступне зі с. 254-256 Sauro, J., & Lewis, JR (2016). Кількісне визначення досвіду користувачів: практична статистика для досліджень користувачів, 2-е вид. Кембридж, Массачусетс: Морган-Кауфман (ви можете заглянути всередині https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


ЧИ ПОТРІБНО ТЕСТУВАТИ НА МІНШЕ 30 КОРИСТУВАЧІВ?

З ОДНОГО БОКУ

Напевно, більшість із нас, які взяли вступний клас статистики (або знають когось, хто взяв такий клас), почули головне правило, що для оцінки або порівняння значень розмір вибірки повинен бути не менше 30. Відповідно до теореми про центральну межу, в міру збільшення розміру вибірки розподіл середнього стає все більш нормальним, незалежно від нормальності основного розподілу. Деякі симуляційні дослідження показали, що для широкого спектру розподілів (але не для всіх - див. Бредлі, 1978) розподіл середнього значення стає майже нормальним, коли n = 30.

Інша думка полягає в тому, що використовувати z-бали трохи простіше, ніж t-бали, оскільки z-бали не вимагають використання ступенів свободи. Як показано в Таблиці 9.1 та Рис. 9.2, до моменту, коли у вас є близько 30 градусів свободи, значення t стає досить близьким до значення z. Отже, може виникнути відчуття, що вам не доведеться мати справу з невеликими вибірками, які потребують статистичних даних з малих вибірок (Cohen, 1990). ...

З ІНШОГО БОКУ

Якщо вартість вибірки дорога, як це зазвичай відбувається у багатьох видах дослідження користувачів (наприклад, модероване тестування на зручність використання), важливо оцінити необхідний розмір вибірки якомога точніше, розуміючи, що це оцінка. Ймовірність того, що 30 є саме правильним зразком для даної сукупності обставин, дуже низька. Як показано в наших розділах щодо оцінки розміру вибірки, більш підходящим підходом є прийняття формул для обчислення рівнів значущості статистичного тесту і, використовуючи алгебру для вирішення для n, перетворити їх у формули оцінки розміру вибірки. Ці формули потім дають конкретні вказівки щодо того, що потрібно знати чи оцінити для даної ситуації, щоб оцінити необхідний розмір вибірки.

Ідея, що навіть при t-розподілі (на відміну від z-розподілу) потрібно мати розмір вибірки не менше 30, не відповідає історії розвитку дистрибуції. У 1899 році Вільям С. Госсетт, недавній випускник Нью-коледжу в Оксфорді зі ступенем хімії та математики, став одним із перших вчених, які приєдналися до пивоварні Гіннеса. «У порівнянні з гігантами його доби він опублікував дуже мало, але його внесок має вирішальне значення. … Характер процесу пивоваріння, його мінливість у температурі та інгредієнтах означає, що неможливо взяти великі проби протягом тривалого періоду »(Cowles, 1989, стор. 108–109).

Це означало, що Госсетт не міг використовувати z-бали у своїй роботі - вони просто не працюють добре з невеликими зразками. Проаналізувавши недоліки z-розподілу для статистичних тестів невеликими зразками, він розробив необхідні корективи як функцію ступенів свободи для створення своїх таблиць t, опублікованих під псевдонімом «Студент» через політику Гіннеса, що забороняє публікацію працівниками (Зальсбург, 2001). У роботі, яка призвела до публікації таблиць, Госсетт виконав ранню версію моделювання Монте-Карло (Stigler, 1999). Він підготував 3000 карток, позначених фізичними вимірюваннями, зробленими злочинцями, перемішав їх, потім роздав їх на 750 груп розміром 4 - розмір вибірки, значно менший за 30.

НАША РЕКОМЕНДАЦІЯ

Ця суперечка схожа на аргумент "достатньо п'яти" проти "восьми недостатньо" аргументу, описаного в главі 6, але застосовується до підсумкових, а не формаційних досліджень. Для будь-якого дослідження кількість користувачів для тестування залежить від мети тесту та типу даних, які ви плануєте збирати. "Магічне число" 30 має емпіричне обгрунтування, але, на наш погляд, воно дуже слабке. Як видно з численних прикладів цієї книги, що розміри вибірки не рівні 30 (іноді менше, іноді більше), ми не вважаємо це правило дуже важливим. Як описано в нашій главі щодо розміру вибірки для підсумкових досліджень, відповідний розмір вибірки для дослідження залежить від типу розподілу, очікуваної змінності даних, бажаного рівня впевненості та потужності,

Як показано на фіг. 9.2, при використанні t-розподілу з дуже малими зразками (наприклад, зі ступенями свободи менше 5) дуже великі значення t компенсують невеликі розміри вибірки стосовно контролю помилок типу I ( стверджувати, що різниця є суттєвою, коли її насправді немає). Якщо такі невеликі розміри зразків, то ваші довірчі інтервали будуть значно ширшими, ніж ви отримаєте з більшими зразками. Але як тільки ви маєте справу з більш ніж 5 градусами свободи, між величиною z і величиною t є дуже мала абсолютна різниця. З точки зору наближення t до z, за останні 10 градусів свободи дуже мало виграшу.

Використовувати t-розподіл не набагато складніше, ніж z-розподіл (потрібно просто бути впевненим, щоб використовувати правильне значення для ступенів свободи), і причиною розвитку t-розподілу було те, що дозволяють проводити аналіз невеликих зразків. Це лише один із менш очевидних способів, яким практикуючі юзабіліті користуються наукою та практикою пивоваріння. Історики статистики широко розглядають публікацію Госсетта t-тесту Студента як визначну подію (Box, 1984; Cowles, 1989; Stigler, 1999). У листі до Рональда А. Фішера (одного з батьків сучасної статистики), що містить ранню копію т-таблиць, Госсетт написав: "Ви, мабуть, єдиний чоловік, який коли-небудь ними скористається" (Box, 1978). У Госсета було багато прав, але він, звичайно, помилився.

ЛІТЕРАТУРА

Коробка, GEP (1984). Важливість практики у розвитку статистики. Технометрія, 26 (1), 1-8.

Box, JF (1978). Фішер, життя вченого. Нью-Йорк, Нью-Йорк: Джон Вілі.

Бредлі, JV (1978). Міцність? Британський журнал математичної та статистичної психології, 31, 144-152.

Коен Дж. (1990). Те, що я навчився (поки що). Американський психолог, 45 (12), 1304-1312.

Каулз, М. (1989). Статистика в психології: історична перспектива. Хіллсдейл, Нью-Джерсі: Лоуренс Ерльбаум.

Зальсбург, Д. (2001). Дама дегустувала чай: як статистика революціонізувала науку у ХХ столітті. Нью-Йорк, Нью-Йорк: WH Freeman.

Стіглер, С.М. (1999). Статистика на таблиці: Історія статистичних понять і методів. Кембридж, Массачусетс: Гарвардський університетський прес.


3

Царині може виявитися цікавим порівняти результати свого параметричного t-тесту з результатами, отриманими в результаті тестового завантаження. Наведений нижче код Stata 13/1 імітує вигаданий приклад щодо двопробного t-тесту з неоднаковими відхиленнями (параметричний t-тест: p-значення = 0,1493; t-тест завантажувальної програми: p-значення = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Є два різні способи виправдати використання t-тесту.

  • Ваші дані зазвичай розповсюджуються, і у вас є щонайменше два зразки на групу
  • У вас є великі розміри зразків у кожній групі

Якщо будь-який із цих випадків має місце, то t-тест вважається дійсним тестом. Тож якщо ви готові зробити припущення, що ваші дані звичайно поширюються (що є багатьма дослідниками, які збирають невеликі зразки), то вам нічого не турбуватися.

Однак хтось може з розумом заперечити, що ви покладаєтесь на це припущення для отримання результатів, особливо якщо відомо, що ваші дані перекошені. Тоді питання розміру вибірки, необхідного для дійсного висновку, є дуже розумним.

Щодо великого розміру вибірки, на жаль, немає справжнього твердого відповіді на це; чим більше перекошених ваших даних, тим більший розмір вибірки, необхідний для розумного наближення. 15-20 в групі, як правило, вважаються розумними великими, але, як і у більшості основних правил, існують протилежні приклади: наприклад, у поверненні квитків на лотерею (де 1, скажімо, 10 000 000 спостережень - це ЕКСТРЕМИ), буквально вам знадобиться десь близько 100 000 000 спостережень до цих випробувань були б доречними.


1

Я погоджуюся щодо корисності прискореного t-тесту. Я також рекомендую порівняти погляд на байєсівський метод, запропонований Крушке за адресою http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Загалом, питання "Скільки предметів?" не можна відповісти, якщо ви не маєте в руках уявлення про те, який би значний розмір ефекту з точки зору вирішення проблеми. Тобто, і якщо, наприклад, тест був гіпотетичним дослідженням щодо ефективності нового лікарського засобу, розмір ефекту міг би бути мінімальним розміром, необхідним для обгрунтування нового препарату порівняно зі старим для Американської адміністрації харчових продуктів та ліків.

Що не дивно в цій та багатьох інших дискусіях, є оптовий бажання стверджувати, що деякі дані просто мають деякий теоретичний розподіл, як, наприклад, Гаусса. По-перше, нам не потрібно розміщувати, ми можемо перевірити навіть невеликі зразки. По-друге, навіщо взагалі задавати якийсь конкретний теоретичний розподіл? Чому б просто не взяти дані як емпіричний розподіл до себе?

Безумовно, що стосується невеликих розмірів вибірки, то, що дані надходять із деякого розподілу, дуже корисні для аналізу. Але, якщо перефразовувати Бредлі Ефрона, тим самим ви просто склали нескінченну кількість даних. Іноді це може бути добре, якщо ваша проблема доречна. Деколи це не так.


1

Що стосується припущень щодо двох зразкових випадків; це те, що обидва вибірки не залежать один від одного, і кожен зразок складається з iid нормальних змінних, причому обидва зразки мають однакове середнє значення і спільну невідому дисперсію під нульовою гіпотезою.

Існує також тест Welch, що використовує наближення Satterwaite для стандартної помилки. Це 2-зразок t-тесту, що передбачає неоднакові відхилення.

Тест Велча

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.