Звідки походить помилкове уявлення про те, що Y повинен бути нормально розподілений?


45

Начебто авторитетні джерела стверджують, що залежна змінна повинна бути нормально розподілена:

Модельні припущення: Y зазвичай розподіляється, помилки нормально розподіляються, eiN(0,σ2) , і незалежні, і X є фіксованим, а постійна дисперсія σ2 .

Penn State, STAT 504 Аналіз дискретних даних

По-друге, аналіз лінійної регресії вимагає, щоб усі змінні були багатоваріантними нормальними.

Статистика Рішення , припущення про лінійну регресію

Це доцільно, коли змінна відповіді має нормальне розподіл

Вікіпедія, Узагальнена лінійна модель

Чи є хороше пояснення, як або чому поширилося це неправильне уявлення? Чи відоме його походження?

Пов'язані


17
Сумно. Ви робите тут добру справу ...
jbowman

7
Y

8
@MichaelChernick "Y нормально розподілений" є явно помилковим. Перевірте це в R: X <- runif(n=100)потім Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)пограйте з гістограмами, щоб переконати себе, що ні X, ні Y зазвичай не розподіляються. Тоді summary(lm(Y ~ X))і зверніть дуже пильну увагу на те, наскільки близький перехоплення до 3, а нахил X до 0,5. Припущення полягає в тому, що помилки зазвичай розподіляються.
Олексій

9
@ Алексис Я вважаю, що Майкл намагався сказати, що багатоваріантні припущення щодо нормальності є достатніми, але не потрібними. Очевидно, як слід читати цитату з Вікіпедії. Друга цитата, очевидно, неправильна в твердженні цих припущень, необхідних. Перша цитата неоднозначна, але її можна було б прочитати щедро в розумінні Майкла.
whuber

6
Я лише говорив, що припущення про нормальність передбачає певні властивості. Наприклад, у простій лінійній регресії, якщо припустити, що умови помилки є нормальними з нульовою середньою та постійною дисперсією, оцінка найменших квадратів параметрів регресії є максимальною ймовірністю. Зберігання всіх припущень, за винятком нормальних найменших квадратів, вже не є максимальною ймовірністю, але все ще є мінімальною дисперсією неупередженою.
Майкл Черник

Відповіді:


13

"Y повинен бути нормально розподілений"

треба?


У тих випадках, коли ви згадуєте, це неохайна мова (скорочення "помилка в Y повинна бути нормально розподілена" ), але вони насправді (сильно) не говорять про те, що відповідь має бути нормально поширюється, або, принаймні, це не здається мені, що їхні слова були призначені так.

Матеріал курсу Penn State

YYi

E(Yi)=β0+β1xi
Yi

YiN(β0+β1xi,σ2)

YYi

  • при поясненні певного варіанту GLM (бінарної логістичної регресії),

    YBinomial(n,π)

  • у деякому визначенні

    YYY

YiY

  • Yi

Веб-сторінка статистичних рішень

це надзвичайно короткий, спрощений, стилізований опис. Я не впевнений, що слід поставитися до цього серйозно. Наприклад, це говорить про

..потрібно, щоб всі змінні були багатоваріантними нормальними ...

так що це не просто змінна відповідь,

а також "багатоваріантний" дескриптор розпливчастий. Я не впевнений, як інтерпретувати це.

Стаття Вікіпедії

має додатковий контекст, пояснений у дужках:

Звичайна лінійна регресія прогнозує очікуване значення заданої невідомої величини (змінна відповідь, випадкова величина) у вигляді лінійної комбінації набору спостережуваних значень (предикторів) . Це означає, що постійна зміна предиктора призводить до постійної зміни змінної відповіді (тобто моделі лінійної реакції). Це доцільно, коли змінна відповіді має нормальний розподіл (інтуїтивно, коли змінна відповіді може істотно змінюватися нескінченно в будь-якому напрямку без фіксованого "нульового значення", або більш загально для будь-якої кількості, яка змінюється лише порівняно невеликою кількістю, наприклад, людини висоти).

y+ϵϵN(0,σ)

Конкретний рядок було додано 8 березня 2012 року , але зауважте, що перший рядок статті у Вікіпедії все ще читає "гнучку узагальнення звичайної лінійної регресії, яка дозволяє змінювати відповіді, які мають моделі розподілу помилок, відмінні від звичайного розподілу" і не є стільки (не скрізь) неправильно.


Висновок

Отже, виходячи з цих трьох прикладів (які справді можуть породжувати помилкові уявлення або, принаймні, можуть бути неправильно зрозумілими), я б не сказав, що "ця помилкова думка поширилася" . Або, принаймні, мені не здається, що наміром цих трьох прикладів є стверджувати, що Y потрібно нормально розподіляти (хоча я пам’ятаю, ця проблема виникала раніше тут на stackexchange, заміні між нормально розподіленими помилками і нормально розподіленою змінною відповіді. легко зробити).

Отже, припущення про те, що "Y має бути нормально розподілений", мені здається, не як поширена віра / оману (як у тому, що поширюється як червона оселедець), а більше, як поширена помилка (яка не поширюється, а робиться незалежно кожен раз ).


Додатковий коментар

Приклад помилки на цьому веб-сайті знаходиться в наступному запитанні

Що робити, якщо залишки звичайно розподіляються, але у ні?

Я б вважав це питанням для початківців. Він не присутній у таких матеріалах, як навчальний матеріал штату Пенн, на веб-сайті Вікіпедії, і нещодавно в коментарях зазначається книга "Розширення лінійної регресії на R".

Письменники цих творів правильно розуміють матеріал. Дійсно, вони використовують фрази, такі як "Y повинен бути нормально розподілений", але виходячи з контексту та використовуваних формул, ви можете побачити, що всі вони означають "Y, умовно позначаючи X, повинні бути нормально розподілені", а не "граничні Y повинні має бути нормально розподілений ". Вони самі не помилково сприймають ідею, і, принаймні, ідея не поширена серед статистиків та людей, які пишуть книги та інші навчальні матеріали. Але неправильне читання їхніх неоднозначних слів справді може спричинити помилкове уявлення.


3
+1 Це сказало: Я думаю, що ми всі бачили багато питань, що стверджують граничну нормальність Y навколо ... є деяке поширення помилкового уявлення. :)
Олексій

Так, я погоджуюся з тим, що припущення про "y нормально розподілений" трапляється часто (я не міг легко знайти приклади, але це може бути, тому що люди описують ці речі між рядками, а не простими ключовими словами). Однак я вважаю, що це більше щось «загальне», а не те, що так сильно « розповсюджується ». І принаймні, безумовно, три приклади, наведені в ОП, не дуже сильні (не сильні в сенсі вказівки на поширення омани, хоча вони і описують патологічне використання мови та те, як помилки можуть виникнути).
Секст Емпірік

@Martijn Weterings: Я б не погоджувався з вашим твердженням "Я б не сказав, що ця помилкова думка поширилася". У своїй книзі «Розширення лінійної регресії на R», використаній як необхідне читання в ряді програм статистики випускників, Джуліан Фарайвей на сторінці xi в передмові цієї книги зазначає, що «Стандартна лінійна модель не може впоратися з ненормальними відповідями, так, як підрахунки або пропорції ".
ColorStatistics

n1(r1)(c1)

1
y=β0+β1x1+...βpxp+ϵϵвідповідь повинна мати конкретний розподіл, про який згадується.
Секст Емпірік

29

Чи є хороше пояснення, як / чому поширилося це неправильне уявлення? Чи відоме його походження?

Ми загалом навчаємо магістрантів "спрощеній" версії статистики з багатьох дисциплін. Я в психології, і коли я намагаюся сказати студентам, що p -значення - це "вірогідність даних - або більш екстремальні дані", враховуючи, що нульова гіпотеза правдива ", колеги кажуть мені, що я висвітлюю детальніше, ніж мені потрібно прикривати. Що я роблю це складніше, ніж це повинно бути, і т. Д. Оскільки студенти в класах мають такий широкий спектр комфорту (або його відсутність) зі статистикою, інструктори, як правило, просто: "Ми вважаємо це достовірним висновком, якщо p <.05 ", наприклад, замість того, щоб дати їм фактичне визначення р -значення.

Я думаю, саме тут пояснюється те, чому поширена помилкова думка. Наприклад, ви можете написати модель як:

Y=β0+β1X+ϵϵN(0,σϵ2)

Це можна переписати як:

Y|XN(β0+β1X,σϵ2)

Що означає, що "Y, умовно X, зазвичай розподіляється із середнім значенням передбачуваних значень та деякою дисперсією".

Це важко пояснити, тому що скорочені люди можуть просто сказати: "Y має бути нормально розподілений". Або коли їм це було пояснено спочатку, люди неправильно зрозуміли умовну частину - адже це, чесно кажучи, заплутано.

Тож, прагнучи не зробити речі страшенно складними, викладачі просто спрощують те, що вони говорять, щоб не надто заплутати більшість учнів. А потім люди продовжують свою статистичну освіту чи статистичну практику з таким оманом. Я сам не повністю зрозумів цю концепцію, поки не почав займатися байєсівським моделюванням в Стані, що вимагає, щоб ви писали свої припущення таким чином:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Крім того, у багатьох статистичних пакетах із графічним інтерфейсом (дивлячись на вас, SPSS) легше перевірити, чи нормально розподілений граничний розподіл (проста гістограма), ніж перевірити, чи нормально розподілені залишки (запустіть регресію, збережіть залишки, запустіть гістограму на цих залишках).

Таким чином, я думаю, що помилкове уявлення в основному пояснюється тим, що викладачі намагаються обрізати деталі, щоб студенти не заплутувались, справжніми і зрозумілими - плутаниною між людьми, які навчаються її правильному способу, і обидва вони посилюються простотою перевірки граничної нормальності в більшість зручних статистичних пакетів.


2
Я думаю, ти прав. Багато людей не розуміють умовної частини. Вони просто думають, що нормально розподілено.
SmallChess

3
Я погоджуюся, що це може бути "один" із режимів, за допомогою яких ця помилка виникає / поширюється. Однак мені здається, що навчальний матеріал штату Пенні не обумовлений цим «навмисним» спрощенням, а також через неохайність написання нотацій. Це трохи схоже на крихітні (курсові) нотки. Або як коментарі до stackexchange, спрощення мови. У деяких місцях вони вживають правильні слова. (особисто мої схеми / діаграми кращі, ніж мої слова / формули, але це не означає, що те, що я пишу, якщо це неправильно, - це обов'язково неправильна ідея)
Sextus Empiricus

1
@MartijnWeterings погоджено - дуже легко плутати когось, не використовуючи певну мову. Важко завжди бути конкретним зі своєю мовою у чомусь такому абстрактному, як статистичні припущення, і багато розумних людей роблять прості помилки, що призводить до поширених подібних помилок.
Марк Білий

1
MarkWhite, я дуже ціную увагу, яку ви направляєте на те, як ми навчаємо ... Я думаю, що це важливо говорить про зацікавленість ОП у "поширенні омани" (на додаток до нюансів того, що є, а що не є оманою. ).
Олексій

16

Аналіз регресії для початківців важкий, оскільки існують різні результати, що мають на увазі різні вихідні припущення. Слабші початкові припущення можуть виправдати деякі результати, але ви можете отримати більш сильні результати, додавши більш сильні припущення. Люди, які не знайомі з повним математичним виведенням результатів, часто можуть неправильно зрозуміти необхідні припущення для результату, або поставивши свою модель занадто слабко для отримання необхідного результату, або висловлюючи деякі непотрібні припущення, вважаючи, що вони потрібні для результату .

Хоча можна отримати більш сильні припущення для отримання додаткових результатів, регресійний аналіз стосується себе умовного розподілу вектора реакції. Якщо модель виходить за рамки цього, то вона потрапляє на територію багатовимірного аналізу, і не є суворо (просто) регресійною моделлю. Справа ще більше ускладнюється тим, що звичайно посилатись на результати розподілу в регресії, не завжди обережно вказуючи, що вони є умовними розподілами (враховуючи пояснювальні змінні в проектній матриці). У випадках, коли моделі виходять за рамки умовних розподілів (припускаючи граничний розподіл для пояснювальних векторів), користувачеві слід бути обережним, щоб вказати цю різницю; на жаль, люди не завжди з цим обережні.


Модель гомоскедастичної лінійної регресії: найдавнішим початковим моментом, який зазвичай використовується, є припущення форми моделі та перших двох моментів помилок без будь-якого припущення про нормальність:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Ця установка є достатньою для того, щоб ви могли отримати оцінювач OLS для коефіцієнтів, неупереджений оцінювач для дисперсії помилок, залишків та моментів усіх цих випадкових величин (за умови пояснювальних змінних у проектній матриці). Це не дозволяє отримати повний умовний розподіл цих величин, але воно дозволяє звертатися до асимптотичних розподілів, якщо велике і деякі додаткові припущення розміщені щодо обмежувальної поведінки . Для подальшого поширення прийнято приймати конкретну форму розподілу для вектора помилок.xnx

Звичайні похибки: Більшість методів лікування гомоскдастичної лінійної регресії припускають, що вектор помилок зазвичай розподілений, що в поєднанні з припущеннями моменту дає:

ε|xN(0,σ2I).

Це додаткове припущення є достатнім для того, щоб оцінювач OLS для коефіцієнтів був MLE для моделі, а також означає, що оцінювач коефіцієнтів і залишки зазвичай розподіляються і оцінювач для дисперсії помилок має масштабований розподіл чи-квадрат (всі обумовлені пояснювальними змінними в проектній матриці). Він також забезпечує те, що вектор відповіді умовно нормально розподілений. Це дає умови розподілу залежно від пояснювальних змінних в аналізі, що дозволяє будувати довірчі інтервали та тести гіпотез. Якщо аналітик хоче зробити висновки щодо граничного розподілу відповіді, їм потрібно піти далі та припустити розподіл пояснювальних змінних у моделі.

Пояснювальні змінні, що спільно-нормальні: Деякі способи лікування гомосептичної лінійної регресії йдуть далі, ніж стандартні методи лікування, і не обумовлюють фіксованих пояснювальних змінних. (Можливо, це перехід від регресійного моделювання та до багатоваріантного аналізу.) Найпоширеніша модель такого типу передбачає, що пояснювальні вектори - це IID спільно-нормальні випадкові вектори. Дозволити Б.Є. - й пояснювальну вектор ( й рядок матриці плану ) ми маємо: i iX(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Це додаткове припущення є достатнім для того, щоб переконатися, що вектор відповіді гранично нормально розподілений. Це сильне припущення, і воно, як правило, не нав'язується в більшості проблем. Як зазначалося, ця модель виводить за межі території регресійного моделювання та проводить багатовимірний аналіз.


1
Мені було дуже проникливим те, як ви вводили по черзі сильніші припущення та описували наслідки.
ColorStatistics
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.