Припущення множинної регресії: чим припущення про нормальність відрізняється від припущення про постійну дисперсію?


20

Я читав, що це умови використання моделі множинної регресії:

  1. залишки моделі майже нормальні,
  2. мінливість залишків майже постійна
  3. залишки незалежні, і
  4. кожна змінна лінійно пов'язана з результатом.

Чим 1 і 2 відрізняються?

Ви можете побачити його прямо тут:

введіть тут опис зображення

Отже, наведений вище графік говорить про те, що залишкове значення, яке знаходиться на 2 стандартні відхилення, знаходиться на відстані 10 від Y-hat. Це означає, що залишки дотримуються нормального розподілу. Ви не можете зробити висновок 2 з цього? Що мінливість залишків майже постійна?


7
Я б стверджував, що порядок тих неправильний. За важливістю я б сказав 4, 3, 2, 1. Таким чином, кожне додаткове припущення дозволяє використовувати модель для вирішення більшого набору проблем, на відміну від порядку у вашому питанні, де найбільш обмежувальне припущення є першим.
Меттью Друрі

2
Ці припущення необхідні для статистики зараження. Ніяких припущень не робиться для того, щоб сума помилок у квадраті була мінімізована.
Девід Лейн

1
Я вважаю, що я мав на увазі 1, 3, 2, 4. 1 потрібно відповідати принаймні приблизно, щоб модель була корисною для всіх, 3 потрібно, щоб модель була послідовною, тобто наближалася до чогось стабільного, коли ви отримуєте більше даних , 2 потрібні, щоб оцінка була ефективною, тобто немає іншого кращого способу використання даних для оцінки тієї ж лінії, і 4 потрібно, принаймні приблизно, для запуску тестів гіпотез щодо оцінених параметрів.
Меттью Друрі

3

2
Будь ласка, дайте джерело для вашої діаграми, якщо це не ваша власна робота.
Нік Кокс

Відповіді:


44

1. Нормальний розподіл залишків :

Умова нормальності вступає в силу, коли ви намагаєтеся отримати довірчі інтервали та / або значення p.

- неумова Гаусса Маркова.ε|ХN(0,σ2Ян)


введіть тут опис зображення

Цей сюжет намагається проілюструвати розподіл точок у популяції синім кольором (з регресією популяції як суцільною синьою лінією), накладеною на вибірковий набір даних у великих жовтих крапках (з оцінною лінією регресії, накресленою як пунктирна жовта лінія). Очевидно, що це стосується лише концептуального споживання, оскільки для кожного значення існували б точки нескінченності - тому це графічна іконографічна дискретизація поняття регресії як безперервного розподілу значень навколо середнього (відповідала передбачуваному значенню) "незалежної" змінної) при кожному заданому значенні регресора або пояснювальної змінної.Х=х

Якщо ми запустимо діагностичні графіки R на модельованих даних "популяції", ми отримаємо ...

введіть тут опис зображення

Дисперсія залишків постійна уздовж всіх значень Х.

Типовим сюжетом було б:

введіть тут опис зображення


Концептуально введення декількох регресорів або пояснювальних змінних не змінює цю ідею. Я вважаю, що практичний підручник пакету є swirl()надзвичайно корисним для розуміння того, як множинна регресія насправді є процесом регресування залежних змінних один проти одного, переносячи залишкові, незрозумілі зміни в моделі; або, простіше кажучи, векторіальна форма простої лінійної регресії :

Загальна методика полягає у виборі одного регресора та заміні всіх інших змінних залишками їх регресії проти цього.


2. Змінність залишків майже постійна (гомоскедастичність) :

Е[εi2|Х]=σ2

Проблема з порушенням цієї умови є:

Гетероскедастичність має серйозні наслідки для оцінки ОЛС. Хоча Оцінювач OLS залишається неупередженим, підрахунок SE неправильний. Через це не можна покладатися на довірчі інтервали та тести гіпотез. Крім того, OLS-оцінювач більше не СІНЬКИЙ.


введіть тут опис зображення

У цьому сюжеті дисперсія збільшується зі значеннями регресора (пояснювальної змінної), на відміну від постійного перебування. У цьому випадку залишки зазвичай розподіляються, але дисперсія цього нормального розподілу змінюється (збільшується) із пояснювальною змінною.

Зауважте, що "справжня" (популяційна) лінія регресії не змінюється відносно лінії регресії населення за гомосекедастичністю в першому сюжеті (суцільний темно-синій), але інтуїтивно зрозуміло, що оцінки будуть більш невизначеними.

Діагностичні графіки на наборі даних ...

введіть тут опис зображення

що відповідає "важкохвостому" розподілу , що має сенс, щоб ми телескопали всі "бокові" вертикальні гауссові сюжети в єдиний, який би зберігав форму дзвона, але мав дуже довгі хвости.


@Glen_b "... повне висвітлення розмежування між двома також вважатиме гомосекастичним, але не нормальним."

введіть тут опис зображення

Залишки сильно перекошені, а дисперсія збільшується зі значеннями пояснювальної змінної.

Це були діагностичні схеми ...

введіть тут опис зображення

відповідні позначеній правій перекосі.

Щоб закрити цикл, ми побачимо також перекоси в гомоскедастичній моделі з не-гауссовим розподілом помилок:

введіть тут опис зображення

з діагностичними діаграмами, як ...

введіть тут опис зображення


2
Велике спасибі. Я вважав, що потрібно подолати грубу дискретизацію населення, що використовується як інструмент візуалізації. Я можу опублікувати код, але я вагаюся, оскільки була певна ступінь творчої математики :-)
Антоні Парелада

3
Ілюстрація відмінності між нормальними помилками та гомосептичними помилками, показуючи графік, що задовольняє обидві, а потім показує нормальне, але не гомоскедастичне, є відмінним. Я здогадуюсь, що повне висвітлення різниці між цими двома також вважатиме гомоскедастичним, але не нормальним. [Я не пропоную вам додавати таку ілюстрацію, але це корисна третя рука, яку люди мають мати на увазі при розгляді припущень.]
Glen_b -Встановити Моніку

7

Це не вина ОП, але я починаю втомлюватися, читаючи подібну дезінформацію.

Я читав, що це умови використання моделі множинної регресії:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

"Модель множинної регресії" - це лише мітка, яка заявляє, що одна змінна може бути виражена як функція інших змінних.

Ні справжній термін помилки, ні залишки моделі не повинні бути майже нічого, зокрема - якщо залишки виглядають нормально, це добре для подальшого статистичного висновку.

Змінність (варіативність) терміна помилки не повинна бути майже постійною - якщо це не так, у нас є модель з гетерокедастичністю, з якою сьогодні досить легко керуватись.

Залишки не є незалежними ні в якому разі, оскільки кожен є функцією всієї вибірки. У справжні умови помилки не повинні бути незалежними -якщо вони не у нас є модель з автокорреляции, які, хоча і більш складним , ніж гетероскедастичності, можуть бути вирішені до такої міри.

Кожна змінна не повинна бути лінійно пов'язана з результатом. Насправді, відмінність між "лінійною" та "нелінійною" регресією не має нічого спільного з співвідношенням змінних - але з тим, як невідомі коефіцієнти входять у співвідношення.

Що можна сказати, це те, що якщо перші три затримки і четверте правильно викладені, то ми отримуємо "Класичну модель нормальної лінійної регресії", яка є лише одним (хоча історично першим) варіантом моделей множинної регресії.


3
ХβХβХ

2
І питання не вистачає абсолютно фундаментального припущення, що умовне очікування термінів помилки дорівнює нулю!
Меттью Ганн

1
@MatthewGunn Ну, ... це відкриває дуже велику дискусію щодо того, що ми робимо з цією моделлю: якщо ми будемо розглядати "детермінований / інженерний" погляд, нам потрібно це припущення, щоб переконатися, що специфікація справді є детермінуючою детермінованою. Якщо ми хочемо оцінити функцію умовного очікування щодо конкретних регресорів , тоді кодування відбувається автоматично (або принаймні його слабша форма, ортогональність).
Алекос Пападопулос

1
@AlecosPapadopoulos Так, у певному сенсі звичайні найменші квадрати завжди дають тобі оцінку чогось! Але це може бути не те, чого ти хочеш. Якщо ОП просто хоче лінійну, умовну функцію очікування щодо конкретних регресорів, я згоден, що умова приймається автоматично. Але якщо ОП намагається оцінити якийсь параметр, виправдання умови ортогональності є критичним!
Меттью Ганн

@MatthewGunn Дійсно, це, безумовно, так.
Алекос Пападопулос

3

Антоні Пареллада мав ідеальну відповідь із приємною графічною ілюстрацією.

Я просто хочу додати один коментар, щоб узагальнити різницю між двома твердженнями

  1. залишки моделі майже нормальні

  2. мінливість залишків майже постійна

  • Заява 1 надає "форму" залишку "крила дзвони" .
  • Заява 2 подрібнює поширення в «формі» (постійний), в сюжеті Антоні Parellada в 3. Є 3 форми дзвін криві, але вони відрізняються поширення.

1

Не існує єдиного унікального набору регресійних припущень, але існує кілька варіацій. Деякі з цих наборів припущень суворіші, тобто вужчі, ніж інші. Крім того, у більшості випадків вам це не потрібно, а в багатьох випадках реально не можна вважати, що розподіл є нормальним.

Припущення, які ви цитували, суворіші за більшість, але вони сформульовані зайвою мовою. Наприклад, що саме майже ? Крім того, це не залишки, на які ми нав'язуємо припущення, це помилки . Залишки - це оцінки помилок, які не помітні. Це говорить про те, що ви посилаєтесь із бідного джерела. Викиньте його.

Коротка відповідь на ваше запитання полягає в тому, що якщо ви розглядаєте будь-який розподіл, наприклад, розподіл студентів t, для своїх помилок (я буду використовувати правильний термін у своїй відповіді), то ви можете побачити, як помилки можуть мати "майже постійну" варіацію не будучи звичайним розподілом, а те, як мати "майже постійну" дисперсію, не вимагає нормального розподілу. Іншими словами, ні, ви не можете розробити одне припущення від іншого без додаткової вимоги.

уi=Хiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NХ
  4. у=Хβ

Отже, коли ми з’єднуємо всі припущення разом таким чином в одному або двох рівняннях, може здатися, що всі вони залежать одне від одного, що не відповідає дійсності. Я збираюся продемонструвати це далі.

Приклад 1

уi=Хiβ+εiεiтν
ν ступенем свободи. Звичайно, помилки будуть постійно змінюватися, і вони не гауссові.

Приклад 2

уi=Хiβ+εiεiN(0,σ2i)
i

1

Я намагався додати в дискусію новий вимір і зробити його більш загальним. Вибачте, будь ласка, якщо це було занадто рудиментарно

Регресійна модель є формальним засобом вираження двох основних компонентів статистичного відношення:

  1. YХ
  2. Розкид точок навколо кривої статистичного зв'язку.

Y

Постулюючи це:

  1. YХ

  2. Х

Y (симетричними, косими) та іншими способами.

YХ

YХYХ в статистичному відношенні.

Джерело: Прикладні лінійні статистичні моделі, KNNL

YХ

Yi=β0 +β1Хi+ϵ

YiХi

β0β1 є параметрами

ϵN(О,σ2)

i

Е(Y|Х)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Чим 1 і 2 відрізняються?

Переходимо до питання

Перше і друге припущення, про які ви заявили, є двома частинами одного і того ж припущення нормальності з нульовою середньою і постійною дисперсією. Я думаю, що питання слід ставити як таке, яке значення мають два припущення для нормальної регресійної моделі помилок, а не різниця між двома припущеннями. Я кажу, що тому, що це здається порівнянням яблук з апельсинами, тому що ви намагаєтеся знайти різницю між припущеннями щодо розподілу розкиду точок та припущеннями щодо його мінливості. Змінність є властивістю розподілу. Тому я спробую відповісти на більш відповідне питання про наслідки двох припущень.

Згідно з припущенням про нормальність, оцінювачі максимальної ймовірності (MLE) є такими ж, як оцінювачі найменших квадратів, і MLE користуються властивістю UMVUE, що означає, що вони мають мінімальну відмінність серед усіх оцінювачів.

Припущення гомоскедастичності дозволяє встановити інтервальні оцінки параметрів β0 і β1і робити тести на значимість. т-тест використовується для перевірки статистичної значущості, яка є стійкою до незначних відхилень від нормальності.


1
Це відмінний результат регресії. Але як він відповідає на конкретне запитання в цій темі?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.