"Y повинен бути нормально розподілений"
треба?
У тих випадках, коли ви згадуєте, це неохайна мова (скорочення "помилка в Y повинна бути нормально розподілена" ), але вони насправді (сильно) не говорять про те, що відповідь має бути нормально поширюється, або, принаймні, це не здається мені, що їхні слова були призначені так.
Матеріал курсу Penn State
YYiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
YYi
YiY
Веб-сторінка статистичних рішень
це надзвичайно короткий, спрощений, стилізований опис. Я не впевнений, що слід поставитися до цього серйозно. Наприклад, це говорить про
..потрібно, щоб всі змінні були багатоваріантними нормальними ...
так що це не просто змінна відповідь,
а також "багатоваріантний" дескриптор розпливчастий. Я не впевнений, як інтерпретувати це.
Стаття Вікіпедії
має додатковий контекст, пояснений у дужках:
Звичайна лінійна регресія прогнозує очікуване значення заданої невідомої величини (змінна відповідь, випадкова величина) у вигляді лінійної комбінації набору спостережуваних значень (предикторів) . Це означає, що постійна зміна предиктора призводить до постійної зміни змінної відповіді (тобто моделі лінійної реакції). Це доцільно, коли змінна відповіді має нормальний розподіл (інтуїтивно, коли змінна відповіді може істотно змінюватися нескінченно в будь-якому напрямку без фіксованого "нульового значення", або більш загально для будь-якої кількості, яка змінюється лише порівняно невеликою кількістю, наприклад, людини висоти).
y+ϵϵ∼N(0,σ)
Конкретний рядок було додано 8 березня 2012 року , але зауважте, що перший рядок статті у Вікіпедії все ще читає "гнучку узагальнення звичайної лінійної регресії, яка дозволяє змінювати відповіді, які мають моделі розподілу помилок, відмінні від звичайного розподілу" і не є стільки (не скрізь) неправильно.
Висновок
Отже, виходячи з цих трьох прикладів (які справді можуть породжувати помилкові уявлення або, принаймні, можуть бути неправильно зрозумілими), я б не сказав, що "ця помилкова думка поширилася" . Або, принаймні, мені не здається, що наміром цих трьох прикладів є стверджувати, що Y потрібно нормально розподіляти (хоча я пам’ятаю, ця проблема виникала раніше тут на stackexchange, заміні між нормально розподіленими помилками і нормально розподіленою змінною відповіді. легко зробити).
Отже, припущення про те, що "Y має бути нормально розподілений", мені здається, не як поширена віра / оману (як у тому, що поширюється як червона оселедець), а більше, як поширена помилка (яка не поширюється, а робиться незалежно кожен раз ).
Додатковий коментар
Приклад помилки на цьому веб-сайті знаходиться в наступному запитанні
Що робити, якщо залишки звичайно розподіляються, але у ні?
Я б вважав це питанням для початківців. Він не присутній у таких матеріалах, як навчальний матеріал штату Пенн, на веб-сайті Вікіпедії, і нещодавно в коментарях зазначається книга "Розширення лінійної регресії на R".
Письменники цих творів правильно розуміють матеріал. Дійсно, вони використовують фрази, такі як "Y повинен бути нормально розподілений", але виходячи з контексту та використовуваних формул, ви можете побачити, що всі вони означають "Y, умовно позначаючи X, повинні бути нормально розподілені", а не "граничні Y повинні має бути нормально розподілений ". Вони самі не помилково сприймають ідею, і, принаймні, ідея не поширена серед статистиків та людей, які пишуть книги та інші навчальні матеріали. Але неправильне читання їхніх неоднозначних слів справді може спричинити помилкове уявлення.