Мінімальний розмір вибірки для непарного тесту


16

Чи існує "правило" для визначення мінімального розміру вибірки, необхідного для тестування тесту?

Наприклад, потрібно порівняти між засобами двох груп населення. Є 7 точок даних від однієї сукупності та лише 2 точки даних від іншого. На жаль, експеримент дуже дорогий і забирає багато часу, а отримання більшої кількості даних неможливо.

Чи можна використовувати t-тест? Чому або чому ні? Будь ласка, надайте детальну інформацію (розбіжності та розподіли населення не відомі). Якщо t-тест неможливо використати, чи можна використовувати непараметричний тест (Манна Вітні)? Чому або чому ні?


2
Це питання охоплює подібний матеріал, і буде цікавим глядачам цієї сторінки: Чи потрібний мінімальний розмір вибірки, щоб t-тест був дійсним? .
gung - Відновіть Моніку

Дивіться також це питання, де обговорюється тестування з ще меншими розмірами вибірки.
Glen_b -Встановити Моніку

Відповіді:


8

Тут я рекомендую використовувати непараметричний тест Манна-Вітні U, а не непарний t- test.

Не існує абсолютного мінімального розміру вибірки для t- тесту, але, оскільки розміри вибірки зменшуються, тест стає більш чутливим до припущення, що обидва зразки беруть із популяцій з нормальним розподілом. Якщо цей невеликий зразок, особливо з одним зразком всього двох, вам потрібно бути дуже впевненим, що розподіл населення був нормальним - і це має базуватися на зовнішніх знаннях, оскільки такі невеликі вибірки дають дуже мало інформації про себе нормальність або інше їх розподіл. Але ви кажете, що "розбіжності та розподіли населення не відомі" (мій курсив).

Тест Манна-Вітні U не вимагає жодних припущень щодо параметричної форми розподілів, вимагаючи лише припущення про те, що розподіли двох груп однакові за нульовою гіпотезою.


6
Недобра рекомендація щодо надзвичайно малих розмірів зразків. Із 7 та 2 зразками U-тест провалиться, незалежно від того, наскільки велика різниця середнього значення серед груп. Подивіться на приклад мою відповідь.
AlefSin

2
Я би другий, що говорить @AlefSin. Якщо вам важливо зробити обґрунтовані висновки (а не лише отримати p-значення), то чим більше резонансних припущень ви можете зробити тим краще. Якщо є обґрунтована довідкова інформація, ви можете також додати ще більше припущень, якби ви зробили аналіз у байєсівських рамках.
Rasmus Bååth

2
Одна з проблем полягає в тому, що при таких невеликих розмірах вибірки Уілкоксон-Ман-Вітні не може досягти типових рівнів значущості. Із розмірами вибірки 7 та 2 ви ніколи не отримаєте важливий результат на рівні 5%, незалежно від того, наскільки відмінна різниця. Поміркуйте (1.018,1.031,1.027,1.020,1.021,1.019,1.024) проти (713.2, 714.5) - не суттєво на рівні 5%!
Glen_b -Встановіть Моніку

3
Це означає , що якщо у них і n 2 = 2 , існує дуже хороший аргумент, який, можливо, слід враховувати, чи має сенс тест на 5% в першу чергу. Правильна оцінка вартості двох типів помилок може призвести до зовсім іншого вибору. n1=7n2=2
Glen_b -Встановити Моніку

6

(відмова від відповідальності: сьогодні я не можу добре набрати: праву руку зламано!)

На відміну від порад щодо використання непараметричного тесту в інших відповідях, слід врахувати, що для надзвичайно малих розмірів вибірки ці методи не дуже корисні. Неважко зрозуміти, чому: у дослідженнях із надзвичайно малим розміром різниці між групами не можна встановити, якщо не спостерігатись великого розміру ефекту. Непараметричні методи, однак, не піклуються про величину різниці між групами. Таким чином, навіть якщо різниця між двома групами величезна, при невеликому розмірі вибірки непараметричний тест завжди не зможе відкинути нульову гіпотезу.

Розглянемо цей приклад: дві групи, нормальний розподіл, однакова дисперсія. 1 група: середнє 1,0, 7 зразків. 2 група: середнє 5, 2 зразки. Існує велика різниця між середніми.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

Обчислене p-значення дорівнює 0,05556, що не відкидає нульову гіпотезу (при 0,05). Тепер, навіть якщо збільшити відстань між обома засобами в 10 разів, ви отримаєте однакове p-значення:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Тепер я пропоную вам повторити те саме моделювання з t-тестом і спостерігати за значеннями p у разі великих (середніх 5 проти 1) та величезних (середніх 50 проти 1) різниць.


5

Немає мінімального розміру вибірки для t-тесту; t-тест насправді був розроблений для невеликих зразків. За старих часів, коли друкували таблиці, ви бачили таблиці тестів для дуже малих зразків (як вимірюється df).

Звичайно, як і в інших тестах, якщо є невеликий зразок, лише досить великий ефект буде статистично значущим.


Але чи буде протилежним також проблема? Тобто, чи можуть люди, які трапили вибірку, призвели до помилкового відхилення нульової гіпотези? Або низька потужність для виявлення відмінностей є більшою проблемою? У цій конкретній ситуації я бачу значну різницю між засобами, але не знаю, наскільки "довіряти" їй.
Джонні спантеличений

2
З n = 2 ви, безумовно, вразливі до впливу людей, що переживають люди - люди, що переживають люди; як у зразка 2 може бути виразка в межах вибірки? :-) Я б не спробував будь-якої інфекційної статистики в цій ситуації. Перспективи погані для досягнення "істини", і ви залишаєте себе широко відкритими для критики.
rolando2

2
Причина того, що інтервал довіри буде широким, полягає саме в тому, що ви можете отримати чужих людей. Але t-тест все ще передбачає, що зразки є з нормальної сукупності.
Пітер Флом - Відновіть Моніку

2

Я припускаю, що ви маєте на увазі, що у вас є 7 точок даних з однієї групи та 2 точки даних з другої групи, обидві з яких є підмножинами популяцій (наприклад, підмножина самців та підмножина жінок).

Математику для t-тесту можна отримати на цій сторінці Вікіпедії . Ми припустимо незалежний двопробний тест з нерівномірними розмірами вибірки (7 проти 2) та неоднаковими дисперсіями, тобто приблизно на півдорозі цієї сторінки. Ви можете бачити, що розрахунок базується на засобах і стандартних відхиленнях. Маючи лише 7 суб'єктів в одній групі та 2 суб'єктів в іншій, ви не можете припустити, що у вас є хороші оцінки як середнього, так і стандартного відхилення. Для групи з 2 предметами середнє значення - це просто значення, яке лежить рівно посередині двох точок даних, тому воно недостатньо оцінено. Для групи з 7 суб'єктами розмір вибірки сильно впливає на відхилення (і, отже, стандартні відхилення, які є квадратним коренем дисперсії), оскільки екстремальні значення чинять набагато сильніший ефект, коли ви маєте менший зразок.

Наприклад, якщо ви подивитесь на основний приклад на сторінці Вікіпедії для стандартного відхилення, ви побачите, що стандартне відхилення дорівнює 2, а дисперсія (квадратне стандартне відхилення) - це 4. Але якщо у нас були лише перші дві точки даних (9 і 1), дисперсія буде 10/2 = 5, а стандартне відхилення - 2,2, і якби ми мали лише два останніх значення (4 і 16), дисперсія була б 20/2 = 10 а стандартне відхилення було б 3,2. Ми все ще використовуємо однакові значення, лише менше, і ми можемо побачити вплив на наші оцінки.

У цьому полягає проблема використання інфекційної статистики з невеликими розмірами вибірки, на результати буде особливо сильно впливати вибірка.

Оновлення: чи є якась причина, чому ви не можете просто повідомити про результати за темою та вказати, що це дослідницька робота? Тільки два випадки дані дуже схожі на тематичне дослідження, і це обидва (1) важливі для написання та (2) прийнята практика.


Дякую Мішель. Це цікаво і корисно знати. Однак що б ви порадили з практичної точки зору? З огляду на таку ситуацію, який найкращий спосіб продовжити? Спасибі!
Джонні спантеличений

Привіт Джонні спантеличений. Без додаткової інформації про вашу точну ситуацію я не можу дати більше вказівок.
Мішель

Яка інформація потрібна?
Джонні спантеличений

1
Привіт ще раз, більше інформації про дизайн вашого дослідження, наприклад, що це ваші дані, як ви їх зібрали, які ваші групи, як було відібрано спостереження. Все, що я знаю, це те, що ви провели експеримент із 9 спостереженнями (люди? Щури? Нейрони? Блоки сиру? Частоти випромінювання?), Які належать до двох груп.
Мішель

Скажімо, середній приплив крові до білої речовини в мозку вимірювали у людей за допомогою МРТ. Групи - це контрольні (7 осіб) та пацієнти, які відповідають віку та статі з певним розладом (2 людини).
Джонні спантеличений

1

Цікава стаття: «Використання t-тесту Стьюдента з надзвичайно низькими розмірами зразка» JCF de Winter (у практичній оцінці, дослідженні та оцінці) http://goo.gl/ZAUmGW


0

Я рекомендую порівняти висновки, отримані з обома, t-тестом та тестом Манна-Уїтні, а також поглянути на боксплоти та профільну ймовірність середнього значення для кожної популяції.


Привіт @Demian, я не впевнений, що навіть boxplot буде корисним, коли одна група має розмір вибірки 2. В іншому випадку, так, я думаю, що саме boxplots дуже корисні для візуалізації безперервних даних по групах.
Мішель

0

Stata 13 / SE код для тесту завантаженняОскільки тест, проведений на невеликих зразках, ймовірно, не відповідає вимогам до тестування (головним чином, нормальність популяцій, з яких були зроблені два зразки бджоли), я рекомендував би виконати тест завантаження (з неоднаковими відхиленнями), дотримуючись Efron B, Тібшірані Рж. Вступ до завантажувальної програми. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. Код для тесту завантажувальної програми за даними, наданими Джоні Пазлед в Stata 13 / SE, повідомляється на зображенні вище.


У вашій відповіді є серйозні проблеми із форматуванням, чи не проти ви її редагувати?
амеба каже, що повернеться до Моніки

Я намагався вирішити питання форматування в рецензованій версії відповіді. Дякую амебі, що вказала на це.
Карло Лаццаро

0

Якщо розмір вибірки становить 2, найкраще зробити, це подивитися самі окремі числа і навіть не турбуватися про статистичний аналіз.


1
В даний час це більше схоже на коментар. Хоча це хороший момент, для розумної відповіді на початкову проблему можна очікувати деякого обговорення самого питання, навіть якщо в кінцевому підсумку можна зробити висновок, що є більше сенсу робити щось інше.
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.