Чи є сенсом перевірити нормальність із дуже малим розміром вибірки (наприклад, n = 6)?


26

У мене розмір вибірки 6. У такому випадку чи є сенс перевіряти нормальність за допомогою тесту Колмогорова-Смірнова? Я використовував SPSS. У мене дуже невеликий розмір вибірки, оскільки потрібен час, щоб отримати кожен. Якщо це не має сенсу, скільки зразків є найменшим числом, яке має сенс тестувати?

Примітка. Я робив експеримент, пов’язаний із вихідним кодом. Вибірка - це час, витрачений на кодування у версії програмного забезпечення (версія A) Насправді у мене є інший розмір вибірки 6, який витрачається на час кодування в іншій версії програмного забезпечення (версія B)

Я хотів би зробити тестування гіпотез, використовуючи однопробний t-тест, щоб перевірити, чи час, витрачений у кодовій версії A, відрізняється від часу, проведеного у кодовій версії B, чи ні (Це мій H1). Обов’язковою умовою однопробного t-тесту є те, що дані, які підлягають тестуванню, повинні нормально поширюватися. Ось чому мені потрібно перевірити на нормальність.


6
Мені, наприклад, важко уявити контекст, в якому n = 6 і нормальність були б гіпотезою, яку варто перевірити. Я побоююсь, що це випадок недосвідченого користувача, який проводить тестування декількох гіпотез (провести регресію, потім перевірити нормальність залишків), і що ми вирішуємо симптоми, але ігноруючи скелети в шафі, так би мовити.
user603

3
@user Несправедливо спекулювати на питанні. Давайте вирішимо питання, чи не так? Отже, припустимо, ви плануєте обчислити верхню межу передбачення для значення, яке буде використано для прийняття дорогого рішення. Значення ПЛ буде чутливим до припущень щодо нормальності. Ви майже впевнені, що процес генерації даних є ненормативним, однак дані є дорогими та трудомісткими для отримання. Попередні експерименти припускають, що буде досить потужним для відхилення нормальності. (Я щойно описав стандартну основу для програм моніторингу підземних вод у США.)n=6
whuber

3
User603 (ваш перший коментар): Я хотів би зазначити, що @Joris не надав відповіді, а також його коментар не супроводжується будь-яким обґрунтуванням. Якщо чітке "ні" є дійсною загальною відповіддю на це питання, давайте розглянемо, як це записано як таке, з підтримуючим аргументом, щоб його можна було оцінити громадою вгору та вниз.
whuber

2
@whuber: Я додав аргумент на категоричне "ні".
Joris Meys

1
@Joris Дякую! Це корисно і висвітлює.
качан

Відповіді:


38

Так.

Усі тести гіпотез мають дві помітні властивості : їх розмір (або "рівень значущості"), число, яке безпосередньо пов'язане з впевненістю та очікуваними помилковими позитивними показниками, та їх потужність, що виражає шанс помилкових негативів. Коли розміри зразків невеликі, і ви продовжуєте наполягати на невеликих розмірах (висока впевненість), потужність погіршується. Це означає, що тести з невеликим зразком зазвичай не можуть виявити невеликі або помірні відмінності. Але вони все одно значущі .

Тест KS оцінює, чи є зразок, отриманий з нормального розподілу. Зразок з шести значень повинен виглядати дуже ненормальним, щоб справді не пройти цей тест. Але якщо це так, ви можете трактувати це відхилення нуля точно так, як ви інтерпретували його з більш високими розмірами вибірки. З іншого боку, якщо тест не відкидає нульову гіпотезу, це говорить вам мало, через високу помилкову негативну швидкість. Зокрема, було б відносно ризиковано діяти так, ніби основний розподіл був нормальним.

Тут ще слід звернути увагу: деяке програмне забезпечення використовує наближення для обчислення значень р із тестової статистики. Часто ці наближення добре працюють для великих розмірів вибірки, але погано діють для дуже малих розмірів вибірки. У такому випадку ви не можете довіряти, що р-значення було правильно обчислено, а це означає, що ви не можете бути впевнені, що бажаний розмір тесту досягнуто. Для отримання детальної інформації зверніться до вашої документації на програмне забезпечення.

Деякі поради: Тест KS значно менш потужний для перевірки нормальності, ніж інші тести, спеціально побудовані для цієї мети. Найкращий з них - це, мабуть, тест Шапіро-Вілка , але інші, що часто використовуються і майже настільки потужні, - це Шапіро-Франція та Андерсон-Дарлінг .

Цей графік відображає розподіл статистики тесту Колмогорова-Смірнова в 10 000 зразків шести нормально розподілених змінних:

Гістограма статистики КС

На основі 100 000 додаткових зразків верхній 95-й перцентил (який оцінює критичне значення для цієї статистики для тесту розміром ) становить 0,520. Прикладом вибірки, яка проходить цей тест, є набір данихα=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

Статистика тесту - 0,5 (що менше критичного значення). Такий зразок буде відхилено за допомогою інших тестів на нормальність.


10
Я думаю, що будь-який розподіл, який дає сиг. результат при N = 6 буде настільки ненормативним, що він пройде IOTT з літаючими кольорами - ось тест на взаємозв'язок з травмою. Це б’є тебе між очима.
Пітер Флом - Відновіть Моніку

2
N=6N=6

Просто для розваги я спробував set.seed (3833782) x <- runif (6) ks.test (x, pnorm) Це було важливо при p = .04. Так може статися
Пітер Флом - Відновіть Моніку

4
@ Петер Добрий! Тест KS на нормальність відхилив рівномірний зразок. Ось що сподівається.
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)виробляє p-value = 0.0003255. Звичайно, мені довелося спробувати його зі 140 насінням, перш ніж я знайшов це ...
Spacedman

20

Як @whuber запитав у коментарях, підтвердження мого категоричного НІ. редагувати: за допомогою тесту shapiro, оскільки тест однопробного ks насправді неправильно використовується. Вір правильний: для правильного використання тесту Колмогорова-Смірнова потрібно вказати параметри розподілу, а не витягувати їх з даних. Однак це робиться в статистичних пакетах, таких як SPSS, для однопробного KS-тесту.

Ви намагаєтесь сказати щось про розподіл, і хочете перевірити, чи можете ви застосувати t-тест. Таким чином, цей тест робиться для підтвердження того, що дані не відходять від нормальності досить суттєво, щоб зробити основні припущення аналізу недійсними. Отже, вас цікавить не помилка I типу, а помилка II типу.

Тепер треба визначити "суттєво інше", щоб можна було обчислити мінімум n для прийнятної потужності (скажімо, 0,8). З дистрибутивами це не просто визначити. Отже, я не відповів на це питання, оскільки не можу дати розумної відповіді, окрім правил, які я використовую: n> 15 та n <50. На основі чого? В основному почуття кишечника, тому я не можу захистити цей вибір окрім досвіду.

Але я знаю, що лише з 6 значеннями ваша помилка типу II повинна становити майже 1, що робить вашу потужність близькою до 0. За 6 спостережень тест Шапіро не може розрізнити нормальне, пуассонне, рівномірне або навіть експоненціальне розподіл. Якщо помилка типу II становить майже 1, ваш тестовий результат є безглуздим.

Для ілюстрації тестування на нормальність за допомогою тесту шапіро:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

Єдине, де приблизно половина значень менше 0,05, - це останнє. Що також є самим крайнім випадком.


якщо ви хочете дізнатися, який мінімальний рівень n дає вам потужність, яка вам подобається за допомогою тесту шапіро, можна зробити таке моделювання:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

який дає вам аналіз потужності таким чином:

введіть тут опис зображення

з чого я роблю висновок, що вам потрібно приблизно мінімум 20 значень, щоб відрізнити показник від нормального розподілу в 80% випадків.

сюжет коду:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber: щодо логіки тестування гіпотез на голові: в якому випадку ви зацікавлені в альтернативній гіпотезі? У всіх програмах цих тестів, які я бачив, люди зацікавлені у підтвердженні нуля: мої дані суттєво не відрізняються від звичайного розподілу. Тому я наголошую на помилці типу II.
Joris Meys

4
n5

4
n=8n

3
@whuber: нам доведеться погодитись на різницю. Я не є прихильником принципів EPA (і, безумовно, не FDA). Я занадто часто бачив це зловживання, щоб все-таки повірити в його корисність. Шанс - дивна річ, і лише 6 випадків вкрай непередбачувані. Я не вірю, що ви можете сказати що-небудь про складну функцію, як-от PDF, на основі лише 6 спостережень. YMMV
Joris Meys

5
@ImAlso Т-тест може допустити багато ненормативності, якщо він досить симетричний, але він не переносить занадто великої асиметрії. (Дійсно, тест на перекос на нормальність може насправді бути кращим варіантом в ОП, ніж тест KS, саме з цієї причини.) Це вказує на одну з найбільших відмінностей між хорошими тестами на придатність та іншими тестами гіпотез: існує величезна кількість простір можливих альтернатив і тестів на Міністерство фінансів, як правило, добре проти деяких з них, але не проти інших. Ви не можете змусити їх добре працювати проти всіх альтернатив.
whuber

-2

Питання, що виникають тут, мають деяке хибне уявлення про те, чому для перевірки нормальності потрібно розмір вибірки 6. Тут головна мета - "перевірити, чи час, витрачений у кодовій версії A, відрізняється від часу, проведеного у кодовій версії B, чи ні ( Це мій H1) ”. Якщо вживається слово "відрізнятися", це один хвіст? Однак тестування на нормальність - це другий крок. Перший крок - перевірити адекватність заданої (1-β) потужності тесту для заданого розміру вибірки, коли потужність дуже погана, то в чому ж полягає тестування умови нормальності ?. Перевірка умов нормальності допоможе нам вирішити, чи потрібно пройти параметричний чи непараметричний тест ?. Якщо розмір зразка не має достатньої потужності, чому слід подумати про тестування нормальності ?.


(-1) Це дуже незрозуміло. Прочитайте цю сторінку, як відповісти на запитання: stats.stackexchange.com/help/how-to-answer
mkt -
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.