Чому деякі люди перевіряють регресійні припущення щодо моделей на своїх необроблених даних, а інші перевіряють їх на залишкові?


12

Я докторант з експериментальної психології і намагаюся вдосконалити свої вміння та знання щодо того, як аналізувати свої дані.

До мого 5-го курсу психології я вважав, що регресійні моделі (наприклад, ANOVA) передбачають такі речі:

  • нормальність даних
  • дисперсія гомогенності даних тощо

Мої бакалаврські курси спонукають мене до думки, що припущення стосуються даних. Однак на моєму 5-му курсі деякі мої інструктори підкреслили той факт, що припущення стосуються помилки (оцінюється залишками), а не необроблених даних.

Нещодавно я говорив про питання припущень з деякими моїми колегами, які також заперечували, що вони виявили важливість перевірки припущень щодо залишків лише в останні роки навчання в університеті.

Якщо я добре розумію, регресійні моделі роблять припущення про помилку. Таким чином, є сенс перевірити припущення щодо залишків. Якщо так, то чому деякі люди перевіряють припущення щодо необроблених даних? Це тому, що така процедура перевірки наближається до того, що ми отримали б, перевіривши залишок?

Я дуже зацікавився б дискусією з цього питання з деякими людьми, які мають більш точні знання, ніж мої колеги, і я заздалегідь дякую за відповіді.

Відповіді:


13

В основному, ви на правильному шляху. Ви знайдете дискусію про аспект нормальності в Нормальності залежної змінної = нормальність залишків?

Деякі припущення класичної лінійної моделі справді стосуються помилок (використовуючи залишки як їх реалізацію):

  • Вони некорельовані? (Доречно для висновку та оптимальності OLS-оцінок)
  • Чи мають вони однакову дисперсію? (Доречно для висновку та оптимальності OLS-оцінок)
  • Вони зосереджені навколо 0? (Основне припущення для отримання неупереджених оцінок та прогнозів)
  • Якщо вибірка дуже мала: вони нормальні або принаймні симетрично розподілені? (Доречно для висновку)

Інші умови стосуються "необроблених даних":

  • Чи немає у регресорів валових виплат? (Спостереження з високим важелем можуть зруйнувати всю модель)
  • Немає ідеальної мультиколінеарності? (Викличе комп'ютерні проблеми, принаймні в деяких програмних пакетах)

Тепер ваш учитель з нижчих класів також може бути правильним:

  • Можливо, ви зосереджувались на одновимірних тестах, як однопробний тест. Там припущення стосуються необроблених даних.
  • R2
  • Як би ви перевірили гомоскедастичність тощо, грунтуючись на вихідних даних? Можливо, ви неправильно зрозуміли його чи її.

Добре дякую за вашу відповідь і за дуже корисне посилання. Деякі з моїх колег і до недавнього часу вірили, що вихідні дані повинні мати однакові відмінності. Як ви сказали, ми, можливо, щось пропустили на наших курсах. У якійсь книзі ми можемо прочитати наступне:
Psychokwak

"Найбільш поширені статистичні процедури роблять два припущення, що мають відношення до цієї теми: (a) припущення про те, що змінні (або їх технічні умови помилки, технічніше) є нормально розподіленими, і (b) припущення про рівність дисперсії (гомоскедастичність або однорідність) дисперсії), що означає, що дисперсія змінної залишається постійною у спостережуваному діапазоні деякої іншої змінної. " Чи означає це, що коли людина говорить про "змінну", він або вона систематично розмовляють про "їхні помилки"? Якщо так, я з цим все в порядку, але без чіткої згадки це далеко не очевидно (принаймні для мене).
Psychokwak

Нарешті, у мене останнє запитання щодо ваших відповідей. Якщо t-тест та ANOVA є окремими випадками регресії, чому припущення стосуються даних одномоментного t-тесту? Ще раз дякую за вашу корисну відповідь.
Psychokwak

1
Щоб відповісти на ваш останній коментар: Один зразковий t-тест також можна розглядати як особливий випадок регресії. Модель просто складається з перехоплення (= середнього) та терміна помилки, тобто відповідь є зміщеною помилкою. Оскільки зміни є неактуальними для будь-якого припущення, то рівнозначно говорити про дані або залишки.
Майкл М

4

Я вважаю, що розмежування між залишками та необробленими даними є непосильним, оскільки обидва посилаються більше на ваш фактичний зразок, а не на базовий розподіл населення. Краще думати про те, що одні вимоги є "потребами в групі", а інші "між груповими припущеннями".

Наприклад, однорідність дисперсії - це «припущення між групою», оскільки воно говорить про те, що дисперсія всередині групи однакова для всіх груп.

Нормальність - це припущення "всередині групи", яке вимагає, щоб усередині кожної групи y було розподілено нормально.

Зауважте, що нормальність щодо всієї сировини y зазвичай означає, що ви не маєте ніякого ефекту - подивіться на розподіл статі, не розрізняючи жінок і чоловіків. Він не буде розповсюджуватися нормально через сильний гендерний ефект. Але всередині кожної статі це досить добре.


1
Дякую і за вашу відповідь. Це цікавий спосіб зрозуміти питання. Я ніколи не думав про нормальність таким чином (тобто "те, що мати нормальність над [цілою сировиною y зазвичай означає, що ми не маємо ефекту").
Psychokwak
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.