Наскільки неправильною є модель регресії, коли припущення не виконуються?


28

Під час встановлення регресійної моделі, що відбувається, якщо припущення виходів не виконані, зокрема:

  1. Що станеться, якщо залишки не є гомосептичними? Якщо залишки показують зростаючу чи зменшувальну картину в графіку Залишкові та Пристосовані.
  2. Що станеться, якщо залишки нормально не поширюються і не виконають тест Шапіро-Вілка? Тест на нормальність Шапіро-Вілка є дуже суворим тестом, і іноді навіть якщо графік Normal-QQ виглядає дещо розумним, дані не піддаються тесту.
  3. Що станеться, якщо один або декілька предикторів не поширюються нормально, не дивляться правильно на графік Normal-QQ або якщо дані не відповідають тесту Шапіро-Вілка?

Я розумію, що не існує жорсткого чорно-білого поділу, що 0,94 є правильним і 0,95 - неправильним, і в питанні я хочу знати:

  1. Що означає недотримання нормальності для моделі, яка добре підходить відповідно до значення R-Squared. Це стає менш надійним, або зовсім марним?
  2. Наскільки відхилення прийнятне, або воно взагалі прийнятне?
  3. Застосовуючи перетворення на даних, щоб відповідати критеріям нормальності, чи покращується модель, якщо дані є більш нормальними (вище P-значення в тесті Шапіро-Вілка, краще дивлячись на звичайний QQ-графік), або вони марні (однаково добре або погано порівняно з оригіналом), поки дані не пройдуть тест на нормальність?

Я думаю, що відповідь лише на заголовок - «Так».
Томас Кліберг

@ThomasCleberg Цікава відповідь. Це те, що ви також говорите, коли люди запитують вас "Як ти?" :)
ДжонК

Ні, але це якщо вони запитують мене, чи я живий. :)
Томас Кліберг

Основне питання, яке потрібно задати собі: "Для чого ви хочете використовувати регресійну модель?"
Флоріс

Відповіді:


32

Що станеться, якщо залишки не є гомосептичними? Якщо залишки показують зростаючу чи зменшувальну картину в графіку Залишкові та Пристосовані.

Якщо термін помилки не є гомосептичним (ми використовуємо залишки як проксі для терміну непомітної помилки), Оцінювач OLS все ще є послідовним та неупередженим, але вже не є найбільш ефективним у класі лінійних оцінювачів. Саме оцінювач GLS зараз користується цією властивістю.

Що станеться, якщо залишки нормально не поширюються і не виконають тест Шапіро-Вілка? Тест на нормальність Шапіро-Вілка є дуже суворим тестом, і іноді навіть якщо графік Normal-QQ виглядає дещо розумним, дані не піддаються тесту.

Нормальність не вимагається теоремою Гаусса-Маркова. Оцінювач OLS все ще БІЛЬКИЙ, але без нормальності у вас виникнуть труднощі робити висновки, тобто тестування гіпотез та довірчі інтервали, принаймні для кінцевих розмірів вибірки. Проте, ще є завантажувальний пристрій.

Асимптотично це менше проблеми, оскільки Оцінювач OLS має обмежуючий нормальний розподіл в умовах легкої регулярності.

Що станеться, якщо один або декілька предикторів не поширюються нормально, не дивляться правильно на графік Normal-QQ або якщо дані не відповідають тесту Шапіро-Вілка?

Наскільки мені відомо, передбачувачі вважаються фіксованими, або регрес їх умовний. Це обмежує ефект ненормальності.

Що означає недотримання нормальності для моделі, яка добре підходить відповідно до значення R-Squared. Це стає менш надійним, або зовсім марним?

R-квадрат - це частка дисперсії, поясненої моделлю. Це не вимагає припущення про нормальність, і це міра корисності придатності незалежно. Якщо ви хочете використовувати його для часткового F-тесту, це зовсім інша історія.

Наскільки відхилення прийнятне, або воно взагалі прийнятне?

Ви маєте на увазі відхилення від нормальності, правда? Це дійсно залежить від ваших цілей, оскільки, як я вже сказав, висновок стає важким за відсутності нормальності, але не є неможливим (завантаження!).

Застосовуючи перетворення на даних, щоб відповідати критеріям нормальності, чи покращується модель, якщо дані є більш нормальними (вище P-значення в тесті Шапіро-Вілка, краще дивлячись на звичайний QQ-графік), або вони марні (однаково добре або погано порівняно з оригіналом), поки дані не пройдуть тест на нормальність?

Коротше кажучи, якщо у вас є всі припущення Гаусса-Маркова плюс нормальність, то оцінювач OLS - найкращий безпристрасний (BUE), тобто найефективніший у всіх класах оцінювачів - досягається нижня межа Крамера-Рао. Це бажано, звичайно, але це не кінець світу, якщо цього не відбудеться. Наведені вище зауваження стосуються.

Щодо перетворень, майте на увазі, що хоча розподіл відповіді може бути наближений до нормальності, інтерпретація може бути не простою.

Це лише короткі відповіді на ваші запитання. Ви, здається, особливо стурбовані наслідками ненормальності. В цілому, я б сказав, що це не так катастрофічно, як вірять люди (до чого? Дві посилання, які я включив, є гарною відправною точкою для подальшого читання, перша теоретична.

Список літератури :

Хаяші, Фуміо. : "Економетрика.", Прінстонський університетський прес, 2000

Кутнер, Майкл Х. та ін. "Прикладні лінійні статистичні моделі.", МакГрау-Хілл Ірвін, 2005.


YXiβi

2
y

βiβiYY1,,Yn

@DeltaIV Що ви маєте на увазі під «ідеальною моделлю»? Це справжня модель, яка в параметрах лінійна. Однак це не обмежує нас, якщо розглядати як оцінювачі лише лінійні функції відповіді. ГМ заявляє, що якщо ми обмежимо нашу увагу в лінійних функціях відповіді, то ОЛС БЛУКУЄ в деяких додаткових припущеннях. Тепер, якщо ми також припускаємо нормальність, незалежно від того, яку функцію відповіді ви розглядаєте , ви просто не можете зробити краще, ніж OLS, якщо, звичайно, оцінювач є неупередженим.
JohnK

Yiβi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.