Якщо моя гістограма показує дзвіноподібну криву, чи можу я сказати, що мої дані зазвичай розподіляються?


11

Я створив гістограму для епохи респондента і зумів отримати дуже гарну криву дзвоникоподібної форми, з якої я зробив висновок, що розподіл нормальний.

Тоді я провів тест на нормальність у SPSS, з n = 169. Р- значення (Сиг.) Тесту Колмогорова-Смірнова менше 0,05, і тому дані порушили припущення про нормальність.

Чому тест вказує на те, що віковий розподіл не є нормальним, але гістограма показала дзвіноподібну криву, що, на мій погляд, є нормальним? Якого результату я повинен наслідувати?


8
Чому ви тестуєте нормальність?
Glen_b -Встановіть Моніку

6
На додаток до відмінного коментаря @ Glen_b та не менш відмінної відповіді Аксакаля , зауважте, що навіть для безперервного розповсюдження KS вимагає, щоб середнє значення та sd були заздалегідь відомі , а не оцінені з даних. Це по суті робить тест на KS марним. "Тест Колмогорова-Смірнова є лише історичною цікавістю. Його ніколи не слід використовувати". (D'Agostino in d'Agostino & Stephens, ред., 1986). Якщо взагалі, замість цього використовуйте Шапіро-Вілкс.
Стефан Коласа

6
@ Стефан Коласа Гарна порада, але ти маєш на увазі Шапіро-Вілк. (Пропозиції М.Б. Уілка та С.С.Вілкса часто плутають чи плутають; дивне вживання англійської мови як такої, що володіє англійською мовою, також може сприяти плутанині навіть для багатьох, хто має англійську мову як свою першу мову.)
Нік Кокс

2
Пов’язаний із коментарем @StephanKolassa, див. Чи найкращим тестом на нормальність є Shapiro-Wilk? ... відповідь полягає в тому, що це не обов'язково, залежно від того, яка альтернатива вас цікавить, але це дуже часто хороший вибір.
Срібна рибка

Відповіді:


34

Ми зазвичай знаємо, що змінна не може бути точно нормально розподілена ...

Нормальний розподіл має нескінченно довгі хвости, що простягаються в будь-якому напрямку - навряд чи дані лежать далеко в цих крайнощах, але для справжнього нормального розподілу це має бути фізично можливим. Для віків звичайно розподілена модель передбачає, що існує ненульова ймовірність даних, що лежать на 5 стандартних відхилень вище або нижче середнього значення - що відповідало б фізично неможливим вікам, таким як нижче 0 або вище 150. (Хоча якщо дивитися піраміда населення , це не зрозуміло , чому можна було б очікувати вік навіть приблизно нормально розподілені в першу чергу.) Точно так само , якщо у вас висот дані, які інтуїтивно може слідувати більш «нормальний, як" розподіл, це може бути тільки по- справжньому нормально, якщо були певні шанси на висоту нижче 0 см або вище 300 див.

Іноді я бачив, що це дозволяє припустити, що ми можемо уникнути цієї проблеми, центрируючи дані, щоб мати середній нуль. Таким чином можливі як позитивні, так і негативні "центризовані віки". Але хоча це робить як негативні значення фізично правдоподібними, так і інтерпретованими (негативні центрировані значення відповідають фактичним значенням, що лежать нижче середнього), але це не обходить питання про те, що звичайна модель виробить фізично неможливі прогнози з ненульовою ймовірністю, як тільки ви розшифрувати модельований "центрований вік" назад до "фактичного віку".

... так навіщо турбувати тестування? Навіть якщо це не точно, нормальність все одно може бути корисною моделлю

Важливе питання насправді не в тому, чи є дані точно нормальними - ми апріорі знаємо , що в більшості ситуацій не може бути, навіть без тестування гіпотези - але чи апроксимація є достатньо близькою для ваших потреб. Дивіться питання, чи тестування на нормальність по суті марно? Нормальний розподіл - це зручне наближення для багатьох цілей. Він рідко є "правильним" - але це, як правило, не повинно бути точно правильним, щоб бути корисним. Я б очікував, що звичайний розподіл, як правило, є розумною моделлю для висоти людей, але це вимагатиме більш незвичного контексту, щоб нормальний розподіл мав сенс як модель віку людей.

Якщо ви справді відчуваєте необхідність провести тест на нормальність, то, можливо, Колмогоров-Смірнов не найкращий варіант: як зазначено в коментарях, є більш потужні тести. Shapiro-Wilk володіє хорошою силою проти цілого ряду можливих альтернатив, і має ту перевагу, що вам не потрібно заздалегідь знати справжню середню величину та відхилення . Але майте на увазі, що у малих зразках потенційно досить великі відхилення від нормальності можуть все-таки залишатися непоміченими, тоді як у великих зразків навіть дуже невеликі (і для практичних цілей невідповідні) відхилення від нормальності, ймовірно, виявляться як "дуже значні" (низький p -значення).

"Дзвіночка" не обов'язково нормальна

Здається, вам сказали думати про "дзвонові" дані - симетричні дані, які досягають максимуму посередині і які мають меншу ймовірність у хвостах - як "нормальні". Але для нормального розподілу потрібна конкретна форма до свого піку і хвостів. Є й інші дистрибутиви з подібною формою на перший погляд, які ви, можливо, також охарактеризували як "дзвоникові", але які не є нормальними. Якщо у вас є багато даних, ви навряд чи зможете відрізнити, що "це схоже на цей позаштатний розподіл, але не як на інші". І якщо у вас є багато даних, ви , ймовірно , знайти це не виглядає зовсім як будь-який розподіл «поза-полки» на всіх! Але в цьому випадку для багатьох цілей ви

Галерея "дзвоноподібних" розподілів

Нормальний розподіл є «дзвін форма» ви звикли; Коші мають пік гостріше і «важче» (тобто містять більше ймовірності) хвости; т розподіл з 5 ступенями свободи приходить де - то між ними (нормаль т з нескінченним ДФ і Коші т з 1 ДФ, так що має сенс); розподіл Лапласа або подвійного експоненціалу має pdf, сформований із двох масштабованих експоненціальних розподілів "назад-назад", що призводить до більш різкого піку, ніж звичайний розподіл; бета - розподілзовсім інша - у неї немає хвостів, які, наприклад, відводяться до нескінченності, натомість мають різкі відсічки - але він все одно може мати форму "горб" посередині. Насправді, розібравшись з параметрами, ви також можете отримати свого роду «перекошений горб» або навіть форму «U» - галерея на пов’язаній сторінці Вікіпедії є досить повчальною щодо гнучкості цього розповсюдження. Нарешті, трикутний розподіл - це ще один простий розподіл на кінцевій опорі, часто використовується в моделюванні ризиків.

Цілком імовірно, що жоден із цих дистрибутивів не точно описує ваші дані, і дуже багато інших дистрибутивів із подібними формами існують, але я хотів вирішити помилкове уявлення про те, що "горбисті посередині і приблизно симетричні означає нормальне". Оскільки існують фізичні обмеження щодо даних про вік, якщо ваші дані про вік "зігнуті" посередині, то все-таки можливий розподіл з кінцевою підтримкою, наприклад, бета-версією або навіть трикутним розподілом, може виявитись кращою моделлю, ніж один з нескінченними хвостами, як звичайні. Зауважте, що навіть якщо ваші дані дійсно були нормально розповсюджені, ваша гістограма все одно навряд чи буде нагадувати класичний "дзвіночок", якщо розмір зразка досить великий. Навіть зразок з такого розповсюдження, як Лаплас, чий pdf чітко відрізняється від звичайного через його зусилля,

Зразки звичайного та Лапласа різних розмірів вибірки

R код

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

11

Вік не може бути від нормального розподілу. Подумайте логічно: ви не можете мати від’ємний вік, але нормальний розподіл передбачає негативні числа.

Існує безліч дзвоноподібних розподілів. Якщо щось виглядає дзвінко, це не означає, що воно повинно бути нормальним.

Немає можливості точно знати що-небудь у статистиці, в тому числі і від того, звідки походять дані. Форма є підказкою: форма дзвоника - один із аргументів для нормального поширення. Також розуміння ваших даних є дуже важливим. Така змінна, як вік, часто перекошується, що виключає нормальність. Як згадувалося, нормальний розподіл не має меж, але іноді використовується для обмежених змінних. Наприклад, якщо середній вік становить 20 років, а стандартне відхилення - 1, то ймовірність віку <17 або> 23 становить менше 0,3%. Отже, можливо, ніж нормальний розподіл може бути хорошим наближенням .

Ви можете спробувати запустити статистичний тест на нормальність, наприклад, Jarque-Bera, який враховує хиткість і куртоз вибірки. Куртоз може мати важливе значення в деяких випадках. Це дуже важливо у фінансах, тому що якщо ви моделюєте дані з нормальним розподілом, але вони насправді є товстим розповсюдженням, ви, можливо, недооцінюєте ризики та ціни на активи.

Це допоможе вам повідомити деякі описові статистичні дані або гістограму даних про ваш вік і зріст, такі як середнє значення, дисперсія, косостість, куртоз.


Дякую за допомогу, чи можете ви мені сказати, як знати, що певні дані надходять від звичайного розповсюдження, наприклад, у вашій відповіді було зазначено, що вік не може бути від нормального розповсюдження, що стосується інших даних, таких як висота. Які критерії я повинен know.i хочу дізнатися більше про це, тому що, здається, я неправильно зрозумів цю концепцію, оскільки я новачок у цьому. Дякую ще раз.
NoraNorad

4
Тим НЕ менше, нормальний розподіл часто є використовуються в якості наближення для таких змінних , як вік. І це насправді не проблема, оскільки ви можете визначити age_centredяк age - mean(age)і у вас є змінна із середнім значенням 0, з деяким стандартним відхиленням, позитивними та негативними значеннями. Тож я б не ставився до цього суворо.
Тім

3
Ви також не можете мати від'ємну висоту для людей, але це не буде для мене перешкодою для опису висоти як зазвичай розподіленої, якщо це було б хорошим наближенням. З цього питання, навіщо використовувати будь-який розподіл з нескінченними межами для вимірювань, які можуть бути лише кінцевими? Як стверджує @Tim, це все питання наближення, прийнятного з огляду на дані та задану мету.
Нік Кокс

1
Я погоджуюсь, що звичайний розподіл може бути хорошим наближенням до обмежених даних іноді, але питання полягало у тому, чи є дані нормальними чи ні.
Аксакал

Вік випускників старших класів середньої школи потенційно може бути нормально розподілений, а також приймати негативні значення, якщо середнє значення буде по центру, як зазначалося @Tim.
ui_90jax
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.