Чи є тестування на нормальність "по суті марним"?


298

Колишній колега якось сперечався зі мною так:

Зазвичай ми застосовуємо тести на нормальність до результатів процесів, які під нулем генерують випадкові величини, які є лише асимптотичними або майже нормальними (при цьому "асимптотично" частина залежить від деякої кількості, яку ми не можемо зробити великою); В епоху дешевої пам’яті, великих даних та швидких процесорів тести на нормальність завжди повинні відкидати нуль нормального розподілу для великих (хоча і не шалено великих) зразків. І тому, навпаки, тести на нормальність слід застосовувати лише для невеликих зразків, коли вони, ймовірно, мають меншу потужність і менший контроль над швидкістю I типу.

Це вірний аргумент? Це загальновідомий аргумент? Чи існують добре відомі тести нульової гіпотези «нечіткої», ніж нормальність?


23
Для довідки: я не думаю, що для цього потрібні вікі спільноти.
Шейн

2
Я не був впевнений, що є "правильна відповідь" ...
shabbychef

5
У певному сенсі це стосується всіх тестів кінцевої кількості параметрів. При фіксованому (кількість параметрів, на які проводиться тест) і вирощуванні без меж, будь-яка різниця між двома групами (незалежно від того, наскільки мала) завжди буде порушувати нуль у певний момент. Власне, це аргумент на користь байєсівських тестів. нkn
user603

2
Для мене це не вагомий аргумент. У будь-якому випадку перед тим, як дати відповідь, потрібно трохи формалізувати речі. Ви можете помилятися, а може і не бути, але тепер те, що у вас є, є не що інше, як інтуїція: для мене речення "В епоху дешевої пам'яті, великих даних та швидких процесорів тести на нормальність завжди повинні відкидати нуль нормального" потрібні роз'яснення :) Я думаю, що якщо ви спробуєте надати більш формальну точність, відповідь буде простою.
Робін Жирард

8
Нитка на темі "Чи великі набори даних непридатні для тестування гіпотез" обговорює узагальнення цього питання. ( stats.stackexchange.com/questions/2516/… )
whuber

Відповіді:


229

Це не аргумент. Це (трохи наголошено) факт, що формальні тести на нормальність завжди відмовляються від величезних розмірів вибірки, з якими ми працюємо сьогодні. Навіть легко довести, що коли n стає великим, навіть найменше відхилення від ідеальної нормальності призведе до значного результату. Оскільки кожен набір даних має певну ступінь випадковості, жоден набір даних не буде ідеально нормально розподіленою вибіркою. Але у прикладній статистиці питання не в тому, чи дані / залишки ... є цілком нормальними, але достатньо нормальними, щоб припущення мали місце.

Дозвольте проілюструвати тестом Шапіро-Вілка . Нижче наведений код створює набір розподілів, які наближаються до нормальності, але не є абсолютно нормальними. Далі ми перевіряємо, shapiro.testчи відрізняється вибірка цих майже нормальних розподілів від нормальності. В R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Останній рядок перевіряє, яка частка моделювання для кожного розміру вибірки суттєво відхиляється від нормальності. Так у 87% випадків вибірка з 5000 спостережень суттєво відхиляється від нормальності за Шапіро-Вілкс. Однак, якщо ви бачите сюжетні qq, ви ніколи не зважитеся на відхилення від нормальності. Нижче ви бачите на прикладі qq-графіки для одного набору випадкових вибірок

alt текст

з р-значеннями

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
Зі сторони, центральна гранична теорема робить перевірку формальності нормальності непотрібною у багатьох випадках, коли n є великим.
Joris Meys

31
так, справжнє питання полягає не в тому, чи фактично розподіляються дані нормально, а чи достатньо вони нормальні, щоб основне припущення про нормальність було розумним для практичної мети аналізу, і я вважав би, що аргумент на основі CLT є нормально [sic] достатня для цього.
Дікран Марсупіал

53
Ця відповідь, як видається, не стосується питання: вона лише демонструє, що тест SW не досягає свого номінального рівня довіри, і тому він виявляє недолік у цьому тесті (або принаймні у його Rздійсненні). Але це все - це не стосується масштабів корисності тестування на нормальність взагалі. Початкове твердження про те, що тести на нормальність завжди відкидаються на великих розмірах вибірки, просто невірно.
whuber

19
@whuber Ця відповідь стосується питання. Вся суть питання - це "близько" в "майже нормальність". SW перевіряє, яка ймовірність того, що зразок відбирається від нормального розподілу. Оскільки створені нами розподіли навмисно не є нормальними, ви очікуєте, що тест SW виконає те, що він обіцяє: відхиліть нуль. Вся справа в тому, що це відмова безглуздо у великих зразках, оскільки відхилення від нормальності не призводить до втрати сили. Тож тест правильний, але безглуздий, як показали QQplots
Joris

11
Я покладався на те, що ви написали, і неправильно зрозумів, що ви мали на увазі під «майже-нормальним» розповсюдженням. Тепер я бачу - але лише читаючи код і ретельно перевіряючи його - ви моделюєте з трьох стандартних нормальних розподілів за допомогою значень і і комбінуєте результати у співвідношенні . Ви не сподіваєтесь, що хороший тест на нормальність відкине нуль у цьому випадку? Те, що ви ефективно продемонстрували, - це те, що QQ не дуже добре виявляє такі суміші, ось і все! 0, 2 2 : 2 : 11,22:2:1
whuber

172

Розмірковуючи про те, чи є тестування на нормальність «по суті марним», спершу треба подумати, для чого він повинен бути корисним. Багато людей (ну ... принаймні, багато вчених) неправильно розуміють питання, на яке відповідає тест на нормальність.

Тести на нормальність запитання відповідають: Чи є переконливі докази будь-яких відхилень від ідеалу Гаусса? При помірно великих реальних наборах даних відповідь майже завжди так.

На запитання вчених часто очікують відповіді тесту на нормальність: Чи досить відхиляються дані від ідеалу Гаусса, щоб "заборонити" використання тесту, який передбачає розподіл Гаусса? Вчені часто хочуть, щоб тест на нормальність був рефері, який вирішує, коли відмовитися від звичайних тестів (ANOVA та ін.), А замість цього аналізує трансформовані дані або використовує ранговий непараметричний тест або підхід із перекомпонування або завантаження. Для цього тести на нормальність не дуже корисні.


16
+1 за гарну та інформативну відповідь. Я вважаю корисним побачити гарне пояснення поширеного непорозуміння (яке я, до речі, переживав сам: stats.stackexchange.com/questions/7022/… ). Те, що я сумую, - це альтернативне рішення цього поширеного непорозуміння. Я маю на увазі, якщо тести на нормальність - це неправильний шлях, як можна перевірити, чи прийнятне / виправдане нормальне наближення?
posdef

6
Там немає заміни (здоровому) глузду аналітика (або, ну, дослідника / вченого). І досвід (вивчений, пробуючи і бачачи: які висновки я роблю, якщо вважаю, що це нормально? Яка різниця, якщо ні?). Графіка - ваші найкращі друзі.
FairMiles

2
Мені подобається цей документ, який робить точку, яку ви зробили: Micceri, T. (1989). Єдиноріг, звичайна крива та інші неймовірні істоти. Психологічний вісник, 105 (1), 156-166.
Джеремі Майлз

4
Дивлячись на графіку - це чудово, але що робити, якщо їх буде занадто багато для вивчення вручну? Чи можемо ми сформулювати розумні статистичні процедури, щоб вказати на можливі місця проблем? Я думаю про такі ситуації, як експериментатори A / B у великих масштабах: exp-platform.com/Pages/… .
dfrankow

118

Я думаю, що тести на нормальність можуть бути корисними як супутники до графічних іспитів. Однак їх потрібно використовувати правильно. На мою думку, це означає, що багато популярних тестів, таких як тести Шапіро-Вілка, Андерсона-Дарлінга та Жарка-Бера, ніколи не слід використовувати.

Перш ніж пояснити свою точку зору, дозвольте зробити кілька зауважень:

  • У цікавій недавній роботі Rochon et al. вивчав вплив тесту Шапіро-Вілка на двопробний t-тест. Двотактна процедура тестування на нормальність перед проведенням, наприклад, t-тесту, не без проблем. Знову ж таки, не є двоступеневою процедурою графічного дослідження нормальності перед проведенням t-тесту. Різниця полягає в тому, що вплив останнього набагато складніше досліджувати (оскільки це вимагатиме від статистики графічного дослідження нормальності в або більше разів ...).100,000
  • Корисно кількісно оцінити ненормальність , наприклад, обчисливши косий зразок, навіть якщо ви не хочете проводити офіційний тест.
  • Багатоваріантну нормальність може бути складно оцінити графічно, а конвергенція до асимптотичних розподілів може бути повільною для багатоваріантної статистики. Тому тести на нормальність є більш корисними в умовах багатоваріантності.
  • Тести на нормальність, мабуть, особливо корисні для лікарів-практиків, які використовують статистику як набір методів "чорної скриньки" . Коли нормальність відхилена, практикуючий повинен тривожитися і, замість того, щоб проводити стандартну процедуру, засновану на припущенні нормальності, розглянути можливість використання непараметричної процедури, застосовуючи трансформацію або порадившись з більш досвідченим статистиком.
  • Як вказували інші, якщо досить великий, CLT зазвичай економить день. Однак те, що є "досить великим", відрізняється для різних класів розподілів.n

(На мій дефінітон) тест на нормальність спрямований проти класу альтернатив, якщо він чутливий до альтернатив цього класу, але не чутливий до альтернатив інших класів. Типовими прикладами є тести, спрямовані на перекоси або куртотичні альтернативи. Найпростіші приклади використовують випромінювання вибірки та куртоз як статистичну інформацію про випробування.

Спрямовані випробування на нормальність, можливо, часто є кращими, ніж тести всеобученого (наприклад, тести Шапіро-Вілка та Жарка-Бера), оскільки прийнято, що певна інфекційна процедура викликає занепокоєння лише для деяких типів ненормальності .

Розглянемо t-тест Стьюдента як приклад. Припустимо, що у нас є зразок iid із розподілу з косою та (надлишковим) куртозомЯкщо симетричний щодо свого середнього значення, . І і дорівнюють 0 для нормального розподілу.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Під припущеннями щодо регулярності ми отримуємо таке асимптотичне розширення для cdf тестової статистики : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

де - це cdf, а - pdf стандартного нормального розподілу.Φ()ϕ()

γ з'являється вперше в терміні, тоді як з'являється в терміні. Асимптотична продуктивність набагато більш чутливі до відхилень від нормальності у вигляді перекосу , ніж у вигляді ексцесу.n1/2κn1 Т пTn

За допомогою моделювання можна перевірити, що це справедливо і для малих . Таким чином, t-тест Стьюдента чутливий до косості, але відносно міцний щодо важких хвостів, і доцільно використовувати тест на нормальність, який спрямований на альтернативи перекосу перед застосуванням t-тесту .n

Як правило ( НЕ закон природи), умовивід про засоби чутливо до асиметричності і умовиводу про відхилення чутливо до ексцесу.

Використання спрямованого тесту на нормальність має перевагу отримання вищої потужності проти '' небезпечних '' альтернатив і меншої потужності проти альтернатив, які менш '' небезпечні '', це означає, що ми рідше відхиляємо нормальність через відхилення від нормальності, яка виграла не впливатиме на ефективність нашої інфекційної процедури. Ненормальність визначається кількісно у відповідності до проблеми, що розглядається. Це не завжди легко зробити графічно.

У міру збільшення стає косоокість і куртоз менш важливими - і спрямовані тести, ймовірно, виявлять, якщо ці величини відхиляються від 0 навіть на невелику кількість. У таких випадках здається, наприклад, перевірити, чи або (дивлячись на перший додаток розширення вище) а не, чи . Це допомагає вирішити деякі проблеми, з якими у противному випадку ми стикаємось із збільшенням ролі .n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
Тепер це чудова відповідь!
user603

10
Так, це має бути прийнята, по-справжньому фантастична відповідь
jenesaisquoi

2
"загальним є факт, що лише певні види ненормативності викликають стурбованість певною інфекційною процедурою". - звичайно, тоді слід використовувати тест, спрямований на цей тип ненормативності. Але той факт, що людина використовує тест на нормальність, означає, що він дбає про всі аспекти нормальності. Питання: чи є тест на нормальність у цьому випадку хорошим варіантом.
rbm

Тести на достатність припущень для конкретних тестів стають загальними, що, на щастя, видаляє деякі здогадки.
Карл

1
@Carl: Чи можете ви додати кілька посилань / прикладів для цього?
kjetil b halvorsen

58

Тести на нормальність IMHO абсолютно марні з наступних причин:

  1. На невеликих зразках є велика ймовірність того, що справжній розподіл населення суттєво є ненормальним, але тест на нормальність не є потужним для його отримання.

  2. На великих зразках такі речі, як T-тест та ANOVA, є досить стійкими до ненормативності.

  3. Вся ідея про нормально розподілене населення - це просто зручне математичне наближення. Жодна з величин, що зазвичай розглядаються статистично, не могла б правдоподібно мати розподіли з підтримкою всіх реальних чисел. Наприклад, люди не можуть мати негативний зріст. Щось не може мати негативну або більшу масу, ніж є у Всесвіті. Таким чином, можна з упевненістю сказати , що нічого НЕ зовсім нормально розподілені в реальному світі.


2
Різниця в електричному потенціалі є прикладом величини в реальному світі, яка може бути негативною.
nico

16
@nico: Звичайно, це може бути негативно, але існує деяка обмежена межа, оскільки у Всесвіті є лише стільки протонів та електронів. Звичайно, це не має значення на практиці, але це моя суть. Нічого точно не розподіляється (модель неправильна), але є багато речей, які досить близькі (модель корисна). По суті, ви вже знали, що модель помиляється, а відхилення або відхилення нуля не дає по суті ніякої інформації про те, чи корисна вона.
dimimcha

1
@dsimcha - Я вважаю, що це дійсно глибока корисна відповідь.
rolando2

5
@dsimcha, -test та ANOVA не стійкі до ненормативності. Дивіться документи Ранда Вілкокса. t
Френк Харрелл

@dsimcha "модель неправильна". Хіба ВСІ моделі не «помиляються»?
Атіраг

30

Я думаю, що попереднє тестування на нормальність (яке включає неофіційні оцінки за допомогою графіки) не вистачає сенсу.

  1. Користувачі такого підходу припускають, що оцінка нормальності фактично має потужність біля 1,0.
  2. Непараметричні тести, такі як Вілкоксон, Спірман і Крускал-Уолліс, мають ефективність 0,95, якщо нормальність дотримується.
  3. З огляду на 2. можна заздалегідь вказати на використання непараметричного тесту, якщо навіть існує можливість того, що дані можуть не виникати при нормальному розподілі.
  4. Звичайні моделі кумулятивної ймовірності (модель пропорційного шансу є членом цього класу) узагальнюють стандартні непараметричні тести. Порядкові моделі повністю перетворення-інваріантне щодо , є надійними, потужними, і дозволяють оцінити квантилі і середнє з .YYY

відзначити , що ефективність 0,95 є асимптотическим : FWIW Я припустив би , що ефективність набагато нижче , для типових розмірів кінцевих зразків ... (хоча по загальним визнанням , я не бачив цього вивчав, і не намагався досліджувати його сам)
Бен Bolker

16

Перш ніж запитати, чи "корисний" тест чи будь-яка груба перевірка на нормальність, ви повинні відповісти на питання, яке стоїть за запитанням: "Чому ви запитуєте?"

Наприклад, якщо ви хочете лише встановити межу довіри навколо середнього набору даних, відхилення від нормальності можуть бути важливими чи не важливими, залежно від того, скільки у вас є даних і наскільки великі вильоти. Однак відхилення від нормальності є вкрай важливими, якщо ви хочете передбачити, яке найбільш екстремальне значення матиме в майбутніх спостереженнях чи серед населення, у якого ви взяли вибірку.


12

Дозвольте додати ще одну дрібницю:
Виконання тесту на нормальність без врахування альфа-помилки збільшує вашу загальну ймовірність виникнення альфа-помилки.

Ви ніколи не забудете, що кожен додатковий тест робить це, якщо ви не контролюєте накопичення альфа-помилок. Отже, ще одна вагома причина відмовитися від перевірки на нормальність.


Я припускаю, що ви маєте на увазі ситуацію, коли спершу робиться тест на нормальність, а потім використовує результат цього тесту, щоб вирішити, який тест зробити далі.
Харві Мотульський

3
Я маю на увазі загальну корисність тестів на нормальність, коли використовується як метод, щоб визначити, чи доцільно використовувати певний метод чи ні. Якщо ви застосовуєте їх у цих випадках, то з точки зору ймовірності допустити альфа-помилку краще провести більш надійний тест, щоб уникнути накопичення альфа-помилок.
Генрік

4
Це для мене немає сенсу. Навіть якщо ви вирішите між, скажімо, ANOVA або методом, заснованим на ранзі, на основі тесту на нормальність (погана ідея, звичайно), в кінці дня ви все одно виконаєте лише один тест порівняння інтересів. Якщо ви відхилили нормальність помилково, ви все одно не зробили неправильного висновку щодо цього конкретного порівняння. Можливо, ви проводите два тести, але єдиний випадок, коли ви можете зробити висновок, що такий фактор є таким, який впливає, коли другий тест також відхиляє , а не тоді, коли це робить лише перший. Отже, не накопичення альфа-помилок…H0
Гала

3
Ще один спосіб тесту на нормальність може збільшити помилки типу I, якщо ми говоримо про "загальну ймовірність виконання альфа-помилки". Сам тест має рівень помилок, тому в цілому наша ймовірність допустити помилку зростає. Наголос також на одній дрібниці, мабуть, ...
Нік Стаунер

2
@NickStauner Це саме те, що я хотів передати. Дякуємо, що зробили цей пункт ще зрозумілішим.
Генрік

11

Тут відповіді вже стосуються кількох важливих моментів. Щоб швидко підвести підсумки:

  • Не існує послідовного тесту, який би міг визначити, чи справді набір даних слід за розподілом чи ні.
  • Тести не є заміною для візуального огляду даних та моделей для виявлення високого важеля, спостережень під високим впливом та коментування їх впливу на моделі.
  • Припущення для багатьох процедур регресії часто неправильно цитуються як такі, що вимагають нормально розподілених "даних" [залишків] і що це трактується початківцями статистиками як вимагає, щоб аналітик офіційно оцінив це в певному сенсі, перш ніж приступати до аналізів.

Я додаю відповідь, по-перше, цитуючи одну з моїх, особисто найчастіше звернених та прочитаних статистичних статей: « Важливість припущень щодо нормальності у великих наборах даних про охорону здоров’я » Lumley et. ін. Варто прочитати повністю. У резюме зазначено:

Лінійна регресія t-тесту та ліній найменших квадратів не потребує припущення про нормальний розподіл у досить великих зразках. Попередні симуляційні дослідження показують, що "достатньо великий" часто становить менше 100, і навіть для наших надзвичайно ненормальних даних про вартість медичних послуг він становить менше 500. Це означає, що в дослідженнях охорони здоров'я, де зразки часто значно перевищують це, -тест та лінійна модель є корисними інструментами за замовчуванням для аналізу відмінностей та тенденцій у багатьох типах даних, а не лише у нормальних розподілах. Офіційні статистичні тести на нормальність особливо небажані, оскільки вони матимуть низьку потужність у малих вибірках, де розподіл має значення, і велику потужність лише у великих зразках, де розподіл не має значення.

Хоча властивості великої вибірки лінійної регресії добре зрозумілі, мало вивчено розміри вибірки, необхідні для того, щоб припущення про нормальність було неважливим. Зокрема, не ясно, як необхідний розмір вибірки залежить від кількості предикторів у моделі.

Зосередженість на звичайних розподілах може відволікти від реальних припущень цих методів. Лінійна регресія передбачає, що дисперсія змінної результату є приблизно постійною, але основним обмеженням обох методів є те, що вони припускають, що достатньо вивчити зміни середньої змінної результату. Якщо якийсь інший підсумок розподілу викликає більший інтерес, то t-тест та лінійна регресія можуть виявитися невідповідними.

Підводячи підсумок: нормальність, як правило, не варта обговорення або уваги, яку вона отримує, на відміну від важливості відповіді на конкретне наукове питання. Якщо бажання узагальнити середні відмінності в даних, то t-тест і ANOVA або лінійна регресія виправдані в набагато ширшому сенсі. Випробування на основі цих моделей залишаються правильним альфа-рівнем, навіть якщо припущення щодо розповсюдження не виконані, хоча потужність може негативно вплинути.

Причини, через які звичайні розподіли можуть привертати увагу, які вони роблять, можуть бути з класичних причин, де можна отримати точні тести, засновані на F-розподілах для ANOVA та розподілу Стьюдента-Т для Т-тесту. Правда, серед багатьох сучасних досягнень науки ми зазвичай маємо справу з більшими наборами даних, ніж були зібрані раніше. Якщо справді йдеться про невеликий набір даних, обґрунтування того, що ці дані зазвичай поширюються, не може виходити з самих цих даних: енергії просто недостатньо. Якщо говорити про інші дослідження, реплікації або навіть біологію чи науку про процес вимірювання, то, на мою думку, є набагато більш обґрунтованим підходом до обговорення можливої ​​моделі ймовірності, що лежить в основі спостережуваних даних.

З цієї причини, вибираючи тест, який базується на ранговому рівні, як альтернативу, цілком пропускається бал. Однак я погоджуюсь, що використання надійних оцінок дисперсії, таких як джекніф або завантажувальний інструмент, пропонують важливі обчислювальні альтернативи, що дозволяють проводити тести за різними важливішими порушеннями специфікації моделі, такими як незалежність або однакове розподіл цих помилок.


10

Раніше я вважав, що тести на нормальність абсолютно марні.

Однак зараз я консультуюсь для інших дослідників. Часто отримання зразків коштує надзвичайно дорого, і тому вони хочуть зробити висновок з n = 8, скажімо.

У такому випадку дуже важко знайти статистичну значимість за допомогою непараметричних тестів, але t-тести з n = 8 чутливі до відхилень від нормальності. Тож, що ми отримуємо, це те, що ми можемо сказати, що «добре, залежно від припущення про нормальність, ми знаходимо статистично значущу різницю» (не хвилюйтесь, це зазвичай пілотні дослідження ...).

Тоді нам потрібен певний спосіб оцінити це припущення. Я на півдорозі в таборі, що дивлячись на сюжети - це кращий шлях, але правду можна сказати, що щодо цього може виникнути багато розбіжностей, що може бути дуже проблематично, якщо хтось із тих, хто не погоджується з тобою, є рецензент вашого рукопису.

Багато в чому я все ще думаю, що в тестах на нормальність є багато недоліків: наприклад, ми повинні думати про помилку II типу більше, ніж про тип I. Але в них є потреба.


Зауважимо, що аргументи тут полягають у тому, що тести теоретично марні. Теоретично, ми завжди можемо отримати стільки зразків, скільки хочемо ... Вам все одно знадобляться тести, щоб довести, що ваші дані хоч якось наближені до нормальності.
SmallChess

2
Влучне зауваження. Я думаю, що ви маєте на увазі, і, звичайно, у що я вважаю, це те, що міра відхилення від нормальності важливіша, ніж тест на гіпотезу.
Кліф АВ

Поки вони потім не переходять на непараметричний тест і не намагаються інтерпретувати значення p (які недійсні при умовному попередньому тестуванні), можливо, це нормально ?!
Бьорн

2
Потужність тесту на нормальність буде дуже низькою при n = 8; зокрема, відхилення від нормальності, які суттєво вплинуть на властивості тесту, який передбачає, що його можна виявити досить важко при невеликих розмірах вибірки (тест чи візуально).
Glen_b

1
@Glen_b: Я згоден; Я думаю, що цей настрій відповідає більше турботам про помилки типу II, а не про тип I. Моя думка полягає в тому, що в реальному світі потрібно перевірити нормальність. Чи справді наші інструменти справді заповнюють цю потребу - це інше питання.
Кліф АВ

10

Для чого це варто, я одного разу розробив швидкий пробовідбірник для усіченого нормального розподілу, і тестування на нормальність (KS) було дуже корисним для налагодження функції. Цей пробовідбірник проходить випробування з величезними розмірами вибірки, але, що цікаво, пробовідбірник зиггурата GSL цього не зробив.


8

Аргумент, який ви висловили, - це думка. Я думаю, що важливість тестування на нормальність полягає в тому, щоб переконатися, що дані не сильно відходять від норми. Я іноді використовую це для вирішення між параметричним та непараметричним тестом для процедури висновку. Я вважаю, що тест може бути корисним у помірних та великих зразках (коли центральна гранична теорема не вступає в силу). Я схильний використовувати тести Вілка-Шапіро або Андерсона-Дарлінга, але, використовуючи SAS, я отримую їх усі, і вони, як правило, дуже добре погоджуються. З іншого боку, я думаю, що такі графічні процедури, як графіки QQ, працюють однаково добре. Перевага формального тесту полягає в тому, що він об'єктивний. У невеликих зразках правдиво, що ці корисні випробування на придатність практично не мають сили, і це має інтуїтивний сенс, оскільки невеликий зразок із звичайного розподілу може випадково виглядати не нормально, і це враховується в тесті. Також у малих зразках не дуже легко помітити високу косоокість і куртоз, які відрізняють багато не нормальних розподілів від нормальних розподілів.


2
Хоча це, безумовно, можна використовувати таким чином, я не думаю, що ви будете більш об'єктивними, ніж з QQ-сюжетом. Суб'єктивна частина тестів - це коли вирішити, що ваші дані ненормальні. При великій вибірці відхилення при р = 0,05 може бути надмірно великим.
Ерік

4
Попереднє тестування (як тут пропонується) може визнати недійсним показник помилок типу I загального процесу; слід враховувати той факт, що попередній тест був зроблений під час інтерпретації результатів того чи іншого тесту, який він обрав. Більш загально, тести гіпотез слід зберігати для тестування нульової гіпотези, про яку насправді піклується, тобто відсутність асоціації між змінними. Нульова гіпотеза про те, що дані точно нормальні, не належить до цієї категорії.
гість

1
(+1) Тут є чудова порада. Ерік, використання "об'єктивного" мене також здивувало, поки я не зрозумів право Майкла: двоє людей, які правильно проводять один і той же тест на одних і тих же даних, завжди отримають одне і те ж p-значення, але вони можуть трактувати один і той же QQ сюжет по-різному. Гість: дякую за попереджувальну записку про помилку типу I. Але чому ми не повинні дбати про розподіл даних? Часто це цікава і цінна інформація. Я, принаймні, хочу знати, чи відповідають дані ті припущення, які мої тести роблять щодо них!
whuber

1
Я категорично не згоден. Обидва отримують однаковий QQ-графік і однакове p-значення. Для інтерпретації p-значення потрібно враховувати розмір вибірки та порушення нормальності, до якого тест особливо чутливий. Тож вирішення того, що робити зі своїм р-значенням, так само суб'єктивне. Причина, чому ви віддаєте перевагу p-значення, полягає в тому, що ви вважаєте, що дані можуть слідувати ідеальному нормальному розподілу - інакше це лише питання про те, наскільки швидко p падає величина вибірки. Що більше, враховуючи пристойний розмір вибірки, QQ-графік виглядає майже однаково і залишається стабільним при більшій кількості зразків.
Ерік

1
Ерік, я згоден, що результати тестування та графіка потребують інтерпретації. Але результат тесту - це число, і про це не буде суперечок. Сюжет QQ, однак, допускає кілька описів. Хоча кожен об'єктивно може бути правильним, вибір того, на що слід звернути увагу, - це вибір. Ось що означає "суб'єктивне": результат залежить від аналітика, а не лише самої процедури. Ось чому, наприклад, у налаштуваннях, різноманітних як контрольні діаграми та урядові постанови, де важлива "об'єктивність", критерії базуються на числових тестах і ніколи не графічних результатах.
whuber

7

Я думаю, що тут може бути корисний підхід максимальної ентропії. Ми можемо призначити нормальний розподіл тому, що вважаємо, що дані "нормально поширюються" (що б це не означало) або тому, що ми очікуємо лише відхилення приблизно такої ж величини. Крім того, оскільки нормальний розподіл містить лише дві достатню статистику, він нечутливий до змін у даних, які не змінюють цих величин. Тож у певному сенсі ви можете вважати нормальний розподіл як "середній" для всіх можливих розподілів з однаковими першими та другими моментами. це є однією з причин, чому найменші квадрати повинні так добре працювати.


Приємне з’єднання концепцій. Я також погоджуюсь, що у випадках, коли таке розповсюдження має значення, набагато більш ілюмінаційно думати про те, як формуються дані. Цей принцип ми застосовуємо при встановленні змішаних моделей. З іншого боку, концентрації або співвідношення завжди перекошені. Я можу додати, що під "нормальним ... нечутливим до змін" ви маєте на увазі інваріантність змін форми / масштабу.
АдамО

7

Я б не сказав, що це марно, але це дійсно залежить від програми. Зауважте, ви ніколи не знаєте, з яких даних надходять дані, і все, що у вас є, - це невеликий набір реалізацій. Середнє значення вибірки завжди є кінцевим у вибірці, але для деяких типів функцій щільності ймовірності значення може бути невизначеним або нескінченним. Розглянемо три типи стабільних розподілів Леві, тобто нормальний розподіл, розподіл Леві та розподіл Коші. Більшість ваших зразків не мають багато спостережень за хвостом (тобто далеко від середнього зразка). Так емпірично дуже важко розрізнити три, тому Коші (має невизначене середнє значення) і Леві (має нескінченну середню) можна було легко замаскувати як нормальний розподіл.


1
«... емпіричний це дуже важко ...» , здається, сперечатися проти , а не для , узагальненого тестування. Це дивно читати в абзаці, вступ якого говорить про те, що дійсно використовуються для тестування на дистрибуції. Що тоді ви насправді намагаєтесь сказати тут?
whuber

3
Я проти, але я також хочу бути обережним, ніж просто говорити, що це марно, оскільки я не знаю всього набору можливих сценаріїв. Існує багато тестів, які залежать від припущення про нормальність. Сказати, що тестування на нормальність є марним - це, по суті, розвінчання всіх таких статистичних тестів, оскільки ви говорите, що не впевнені, що використовуєте / робите правильно. У такому випадку ви не повинні цього робити, не слід робити цей великий розділ статистики.
полковник

Дякую. Зауваження в цьому коментарі, здається, краще зосереджені на питанні, ніж ваша оригінальна відповідь! Ви можете розглянути можливість оновлення своєї відповіді в якийсь момент, щоб зробити ваші думки та поради більш зрозумілими.
whuber

@whuber Немає проблем. Можна порекомендувати редагування?
полковник

Ви можете почати з комбінування двох дописів - відповіді та коментаря -, а потім подумайте про вилучення (або віднесення до додатку чи уточнення) будь-якого матеріалу, який може бути дотичним. Наприклад, посилання на невизначені засоби досі не має чіткого стосунку до цього питання, і тому воно залишається дещо таємничим.
whuber

7

Я думаю, що на перші 2 запитання були ретельно відповіді, але я не думаю, що питання 3 було вирішене. Багато тестів порівнюють емпіричний розподіл з відомим гіпотезованим розподілом. Критичне значення для тесту Колмогорова-Смірнова засноване на повністю уточненому F. Його можна модифікувати для перевірки параметричного розподілу з оціненими параметрами. Тож якщо нечіткий спосіб оцінює більше двох параметрів, тоді відповідь на питання - так. Ці тести можуть бути застосовані 3 сімейства параметрів або більше. Деякі тести розроблені таким чином, щоб мати кращу потужність при тестуванні на певну родину дистрибуцій. Наприклад, при тестуванні на нормальність тест Андерсона-Дарлінга або Шапіро-Вілка має більшу потужність, ніж КС чи квадрат, коли нульовий гіпотезований розподіл є нормальним.


5

Тести, де "щось", важливе для аналізу, підтримується високими значеннями p, я вважаю, що це неправильно. Як зазначали інші, для великих наборів даних гарантується р-значення нижче 0,05. Отже, тест по суті "винагороджує" для невеликих і нечітких наборів даних і "винагороду" за відсутність доказів. Щось на зразок сюжетів qq набагато корисніше. Бажання важких цифр вирішувати такі речі завжди (так / ні нормально / не нормально) пропускає, що моделювання частково є мистецтвом і як насправді підтримуються гіпотези.


2
Залишається, що великий зразок, який є майже нормальним, матиме низьке значення p, тоді як менший зразок, який не є таким, як нормальний, часто не буде. Я не думаю, що великі р-значення корисні. Знову ж таки, вони винагороджують за відсутність доказів. Я можу мати вибірку з кількома мільйонами точок даних, і вона майже завжди буде відкидати припущення про нормальність під час цих тестів, тоді як менший зразок цього не зробить. Тому я вважаю їх не корисними. Якщо моє мислення є помилковим, будь ласка, покажіть це, використовуючи дедуктивне міркування з цього приводу.
wvguy8258

Це зовсім не відповідає на питання.
SmallChess

-2

Одне хороше використання тесту на нормальність, яке, на мою думку, не було згадане, - це визначити, чи добре використовувати z-бали. Скажімо, ви вибрали випадкову вибірку з популяції, і ви хочете знайти ймовірність відбору однієї випадкової особи з популяції та отримати значення 80 або вище. Це можна зробити, лише якщо розподіл є нормальним, оскільки для використання z-балів припущення полягає в тому, що розподіл населення нормальний.

Але тоді я здогадуюсь, що я теж бачу це спірне ...


Значення чого? Середнє значення, сума, дисперсія, індивідуальне спостереження? Лише останній покладається на припущену нормальність розподілу.
whuber

я мав на увазі індивідуальне
Hotaka

2
Дякую. Ваша відповідь залишається настільки невиразною, що важко сказати, на які процедури ви звертаєтесь, і неможливо оцінити, чи ваші висновки справедливі.
whuber

2
Проблема з цим використанням така ж, як і з іншими способами використання: Тест буде залежати від розміру вибірки, тому він по суті марний. Це не говорить вам, чи можете ви використовувати z балів.
Пітер Флом
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.