Припущення узагальненої лінійної моделі


14

Я зробив узагальнену лінійну модель з єдиною змінною відповіді (безперервний / нормально розподілений) та 4 пояснювальними змінними (3 з яких - коефіцієнти, а четверта - ціле число). Я використав розподіл помилок Гаусса з функцією зв’язку ідентичності. Я зараз перевіряю, чи відповідає модель припущенням узагальненої лінійної моделі, які є:

  1. незалежність Y
  2. правильна функція зв'язку
  3. правильна шкала вимірювання пояснювальних змінних
  4. ніяких впливових спостережень

Моє запитання: як я можу перевірити, чи модель відповідає цим припущенням? Найкращою відправною точкою могло б стати побудова змінної відповіді проти кожної пояснювальної змінної. Однак 3 пояснювальних змінних є категоричними (з 1-4 рівнями), тож що мені слід шукати на графіках?

Крім того, чи потрібно перевіряти наявність мультиколінеарності та взаємодії між пояснювальними змінними? Якщо так, то як це зробити з категоричними пояснювальними змінними?

Відповіді:


20

Я думаю, що спроба мислити це як узагальнену лінійну модель є надмірною. У вас є звичайна стара модель регресії. Більш конкретно, оскільки у вас є кілька категоричних пояснювальних змінних та безперервний EV, але взаємодії між ними відсутні, це також можна назвати класичною ANCOVA.

Я б сказав, що №3 насправді не є припущенням про те, що потрібно турбуватися. І з цього приводу вам не потрібно по-справжньому турбуватися про №2. Натомість я б витіснив їх з двох різних припущень:

2 '. Однорідність дисперсії
3 '. Нормальність залишків

Крім того, №4 - важлива річ, яку потрібно перевірити, але я не дуже сприймаю це як припущення як таке. Давайте подумаємо, як можна перевірити припущення.

Незалежність часто «перевіряється» по-перше, думаючи про те, на чому стоять дані та як вони були зібрані. Крім того, можна перевірити , використовуючи такі речі , як біжить тест , тест Дарбіна-Уотсона , або розглядаючи картину автокореляцій --Ви також може подивитися на часткових автокореляцій . (Зверніть увагу, що їх можна оцінити лише щодо вашого постійного коваріату.)

Жмах. (Зверніть увагу, що ці випробування можуть бути застосовані до ваших категоричних коваріатів на відміну від вище.) Для безперервного ЕВ я люблю просто побудувати мої залишки проти суцільного коріаріату і візуально їх оглянути, щоб побачити, чи вони поширюються далі в ту чи іншу сторону.

Нормальності залишків може бути оцінена з допомогою деяких тестів, як Шапіро-Wilk , або тести Колмогорова-Смирнова , але часто найкраще оцінюють візуально через Qq-сюжет . (Зауважте, що це припущення, як правило, є найменш важливим із набору; якщо воно не виконане, ваші бета-оцінки все одно будуть неупередженими , але ваші р-значення будуть неточними.)

Існує кілька способів оцінити вплив ваших індивідуальних спостережень. Можна отримати числові значення, які індексують це, але мій улюблений спосіб, якщо ви це можете зробити, - це виграти нож своїми ногами. Тобто ви скидаєте кожну точку даних по черзі і перевстановлюєте свою модель. Тоді ви можете вивчити, наскільки ваші бета-версії відхиляються, якщо це спостереження не було частиною вашого набору даних. Цей захід називається dfbeta . Для цього потрібно трохи програмування, але є стандартні способи, за допомогою яких програмне забезпечення часто може обчислюватися автоматично. До них відносяться важелі та відстань Кука .

Y

Щодо "правильної шкали вимірювання пояснювальних змінних", я вважаю, що ви маєте на увазі рівні вимірювання Стівена (тобто категоричні, порядкові, інтервальні та співвідношення). Перше, що слід усвідомити, це те, що методи регресії (включаючи GLiM) не роблять припущень щодо пояснювальних змінних, натомість спосіб використання вами пояснювальних змінних у вашій моделі відображає ваші переконання щодо них. Крім того, я схильний вважати, що рівні Стівена переграли; Більш теоретичну обробку цієї теми дивіться тут .


1
Оскільки Op включав функцію зв'язку, я думаю, що він насправді мав на увазі узагальнену лінійну модель, де функція зв'язку застосовується до Y. Також я б назвав незалежність Y як припущення. Припущення, на який я думаю, є більш правильним, що компоненти помилок у моделі є незалежними. Враховуючи, що я думаю, що решта того, що написав Гунг, є правильним.
Майкл Р. Черник

@MichaelChernick, я згоден з тобою. Я трохи відредагував свою відповідь, щоб вирішити ці проблеми. Повідомте мене, якщо ви вважаєте, що це ще потребує більшої роботи.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.