Що таке нормальність?


Відповіді:


29

Припущення про нормальність - це лише припущення, що основна випадкова величина інтересу розподіляється нормально , або приблизно так. Інтуїтивно під нормальністю можна розуміти результат сукупності великої кількості незалежних випадкових подій.

Більш конкретно, нормальні розподіли визначаються наступною функцією:

alt текст

де і σ 2 - середнє значення та дисперсія відповідно, і що виглядає так:мкσ2

alt текст

Це можна перевірити декількома способами , які можуть бути більш-менш пристосовані до вашої проблеми своїми особливостями, такими як розмір n. В основному всі вони перевіряють характеристики, які очікуються, якщо розподіл був нормальним (наприклад, очікуваний квантильний розподіл ).


33

Одне зауваження: припущення про нормальність часто НЕ про ваші змінні, а про помилку, яку оцінюють залишки. Наприклад, при лінійній регресії ; немає ніякого припущення , що Y розподілена нормально, тільки те , що е є.Y=а+бх+еYе


16
+1. Нарешті хтось вказав, що, мабуть, є найважливішим аспектом цього питання: у більшості ситуацій "нормальність" важлива щодо залишків чи вибіркового розподілу статистичних даних, а не щодо розподілу населення!
whuber

4
Я додам, що якщо нормально розподілений, то Y принаймні умовно нормальний. Я думаю, що це втрачається - люди думають, що Y є гранично нормальним, але його фактично умовна нормальність, яка необхідна. Найпростішим прикладом цього є однобічний ANOVA. е
ймовірністьлогічний

Умовно на чому?
bill_e

1
@bill_e Незалежні змінні
Glen_b -Встановити Моніку

10

Пов'язаний з цим питання можна знайти тут про нормальному допущенні помилки (або в більш загальному плані даних , якщо у нас немає попередніх знань про дані).

В основному,

  1. Математично зручно використовувати нормальний розподіл. (Це пов'язано з розміщенням найменших квадратів і їх легко вирішити за допомогою псевдоінверси)
  2. Зважаючи на теорему про центральний ліміт, можна припустити, що існує багато фактів, що впливають на процес, і сума цих окремих наслідків буде мати тенденцію до нормального розподілу. На практиці це, мабуть, так і є.

Важлива примітка звідси полягає в тому, що, як стверджує тут Теренс Тао , "грубо кажучи, ця теорема стверджує, що якщо взяти статистику, це комбінація багатьох незалежних і випадково коливаються компонентів, при цьому жоден компонент не може вирішально впливати на цілий , тоді ця статистика буде приблизно розподілена відповідно до закону, який називається нормальним розподілом ".

Щоб зробити це зрозумілим, дозвольте мені написати фрагмент коду Python

# -*- coding: utf-8 -*-
"""
Illustration of the central limit theorem

@author: İsmail Arı, http://ismailari.com
@date: 31.03.2011
"""

import scipy, scipy.stats
import numpy as np
import pylab

#===============================================================
# Uncomment one of the distributions below and observe the result
#===============================================================
x = scipy.linspace(0,10,11)
#y = scipy.stats.binom.pmf(x,10,0.2) # binom
#y = scipy.stats.expon.pdf(x,scale=4) # exp
#y = scipy.stats.gamma.pdf(x,2) # gamma
#y = np.ones(np.size(x)) # uniform
y = scipy.random.random(np.size(x)) # random

y = y / sum(y);

N = 3
ax = pylab.subplot(N+1,1,1)
pylab.plot(x,y)

# Plotting details 
ax.set_xticks([10])
ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
ax.set_yticks([round(np.max(y),2)])

#===============================================================
# Plots
#===============================================================
for i in np.arange(N)+1:
    y = np.convolve(y,y)
    y = y / sum(y);    

    x = np.linspace(2*np.min(x), 2*np.max(x), len(y))
    ax = pylab.subplot(N+1,1,i+1)
    pylab.plot(x,y)
    ax.axis([0, 2**N * 10, 0, np.max(y)*1.1])
    ax.set_xticks([2**i * 10])
    ax.set_yticks([round(np.max(y),3)])

pylab.show()

Випадковий розподіл

Експоненційний розподіл

Рівномірний розподіл

Як видно з рисунків, отриманий розподіл (сума) прагне до нормального розподілу незалежно від окремих типів розподілу. Отже, якщо у нас недостатньо інформації про основні ефекти в даних, припущення про нормальність є розумним.


1
CLT не дозволяє нам припускати, що в будь-якому даному процесі є безліч індивідуальних ефектів - якщо нам дано, що існує багато не надто залежних окремих факторів, що сприяють вимірюванню (жоден з яких не має надто великої кількості загальної кількості варіація), ми можемо бути виправданими припускаючи нормальність, посилаючись на CLT. Припущення про багато внесків передує застосуванню CLT, це не є в жодному сенсі результатом CLT. Інакше все було б нормально, адже насправді це лише іноді приблизно так.
Glen_b -Встановіть Моніку

5

Ви не можете знати, чи існує нормальність, і саме тому ви повинні зробити припущення, що воно є. Довести відсутність нормальності можна лише статистичними тестами.

Ще гірше, коли ви працюєте з реальними даними, майже впевнені, що у ваших даних немає справжньої нормальності.

Це означає, що ваш статистичний тест завжди трохи упереджений. Питання в тому, чи можна жити з упередженням. Для цього ви повинні зрозуміти ваші дані та нормальність, яку передбачає ваш статистичний інструмент.

Це є причиною того, що інструменти "Частота" такі ж суб'єктивні, як і Байєсові інструменти. Ви не можете визначити, виходячи з даних, які вони зазвичай поширюються. Ви повинні припустити нормальність.


5
Ви нічого не можете довести, використовуючи статистику. Доказ має бути точним. Статистика стосується ймовірностей. Навіть результат ap = 0,99 у квадраті Chi не "доводить", що базовий розподіл не є нормальним. Проклято навряд чи це нормально.
xmjx

@xmjx: Ви навіть не можете сказати, що даний розподіл, ймовірно, нормально розподілений. Якщо у вас є розподіл, де 99,99% ваших значень 1, але 0,01% ваших значень 1000000, це статистичний тест, що вибірки 100 значень мають хороший шанс сказати вам неправильно, що ваш розподіл зазвичай розподілений.
Крістіан

2
Я не є великим статистичним експертом, тому це може здатися дурним питанням ... чи не існує "справжньої нормальності" в базовому процесі, який генерує змінну, а не дані? Це може здатися дурним розрізненням, але, можливо, це може врятувати деякі пошуки душі. Якщо зібрані дані не зовсім нормальні, але базовий випадковий процес працює в принципі нормально, це ситуація, коли ви могли вирішити "жити з упередженням"?
Джонатан

@Christian - ваш коментар про те, що "... 100 значень має хороший шанс ..." зовсім не підтверджується моїм злому: x = c (rep (1,99), rep (1000000,1)); ks.test (x, pnorm)> Припущення про нормальність все ще "відкидається" тестом KS.
rolando2

Мені подобається ця відповідь (+1), але це трохи песимістично щодо того, що можна зробити з припущенням про нормальність. Зазвичай це хороша відправна точка для будь-якого моделювання, і ви можете узагальнити дуже широкий клас розподілів, взявши або суміші, або функції звичайно розподілених випадкових величин.
ймовірністьлогічний

4

Припущення про нормальність передбачає, що ваші дані звичайно поширюються (крива дзвоника або гауссова розподіл). Ви можете перевірити це, побудувавши дані або перевіривши заходи щодо куртозу (наскільки різкий пік) та косості (?) (Якщо більше половини даних знаходиться на одній стороні піку).


2
Які рівні куртозу та хитрості є прийнятними для задоволення припущення про нормальність?
Лев

5
Більшість статистичних методів передбачають нормальність не даних, а скоріше припущену випадкову величину, наприклад, термін помилки в лінійній регресії. Перевірка передбачає перегляд залишків, а не оригінальних даних!

3

Інші відповіді висвітлювали, що таке нормальність, та пропонували методи тестування на нормальність. Крістіан підкреслив, що на практиці досконала нормальність ледве існує.

Я підкреслюю, що спостерігається відхилення від нормальності не обов'язково означає, що методи, що передбачають нормальність, можуть не застосовуватися, а тест на нормальність може бути не дуже корисним.

  1. Відхилення від нормальності можуть бути спричинені непрацездатними людьми, пов'язаними з помилками в зборі даних. У багатьох випадках перевірка журналів збору даних ви можете виправити ці цифри, а нормальність часто покращується.
  2. Для великих зразків тест на нормальність зможе виявити незначне відхилення від нормальності.
  3. Методи, що припускають нормальність, можуть бути стійкими до ненормальності і давати результати прийнятної точності. Як відомо, t-тест є надійним у цьому сенсі, тоді як тест F не є джерелом ( постійна посилання ) . Щодо конкретного методу, найкраще перевірити літературу про надійність.

1
Я думаю, що причина нормальності є хорошим припущенням в тому, що вона відносно не використовує дані - лише перші два моменти використовуються для оцінки нормального розподілу. Це робить діагностичну перевірку моделі з мінімальними квадратами дуже простою - в основному ви просто шукаєте інше, що може вплинути на достатню статистику.
ймовірністьлогічний

3

Щоб додати відповіді вище: "Припущення про нормальність" полягає в тому, що в моделі Y=мк+Хβ+ϵ, термін залишку ϵнормально розподіляється. Це припущення (як я ANOVA) часто узгоджується з деяким іншим: 2) дисперсіяσ2 з ϵ постійна, 3) незалежність спостережень.

З цих трьох припущень 2) і 3) здебільшого важливіші, ніж 1)! Тож вам слід більше зайнятися ними. Джордж Бокс сказав щось у рядку "" Попередній тест на відхилення - це скоріше, як вивіз у море в судно, щоб дізнатись, чи достатньо спокійних умов для того, щоб океанський лайнер вийшов з порту! "- [Коробка," Не -нормальність та тести на дисперсії ", 1953, Біометріка 40, с. 318-335]"

Це означає, що нерівні відхилення викликають велике занепокоєння, але насправді тестувати їх дуже складно, оскільки на тести впливає ненормальність настільки мала, що вона не має значення для тестів засобів. Сьогодні існують непараметричні тести на нерівні відхилення, які ВИКОНАНО слід використовувати.

Коротше кажучи, займіться собою ПЕРШИМИ нерівномірними варіаціями, потім про нормальність. Коли ви склали собі думку про них, можете подумати про нормальність!

Ось багато корисних порад: http://rfd.uoregon.edu/files/rfd/StatisticResources/glm10_homog_var.txt


Я цілком впевнений, що моє тлумачення правильне. Box також детально написав про це у Box, Hunter & Hunter: Статистика для експериментаторів, які я ретельно прочитав. Але тепер я бачу, що те, що я писав про те, що не те, що я мав на увазі, це повинно сказати ... тоді про нормальність! нерівні дисперсії набагато важливіші, ніж нормальність. Звичайно, незалежність є матір'ю всіх припущень.
kjetil b halvorsen
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.