Я думаю, що спроба мислити це як узагальнену лінійну модель є надмірною. У вас є звичайна стара модель регресії. Більш конкретно, оскільки у вас є кілька категоричних пояснювальних змінних та безперервний EV, але взаємодії між ними відсутні, це також можна назвати класичною ANCOVA.
Я б сказав, що №3 насправді не є припущенням про те, що потрібно турбуватися. І з цього приводу вам не потрібно по-справжньому турбуватися про №2. Натомість я б витіснив їх з двох різних припущень:
2 '. Однорідність дисперсії
3 '. Нормальність залишків
Крім того, №4 - важлива річ, яку потрібно перевірити, але я не дуже сприймаю це як припущення як таке. Давайте подумаємо, як можна перевірити припущення.
Незалежність часто «перевіряється» по-перше, думаючи про те, на чому стоять дані та як вони були зібрані. Крім того, можна перевірити , використовуючи такі речі , як біжить тест , тест Дарбіна-Уотсона , або розглядаючи картину автокореляцій --Ви також може подивитися на часткових автокореляцій . (Зверніть увагу, що їх можна оцінити лише щодо вашого постійного коваріату.)
Жм а х. (Зверніть увагу, що ці випробування можуть бути застосовані до ваших категоричних коваріатів на відміну від вище.) Для безперервного ЕВ я люблю просто побудувати мої залишки проти суцільного коріаріату і візуально їх оглянути, щоб побачити, чи вони поширюються далі в ту чи іншу сторону.
Нормальності залишків може бути оцінена з допомогою деяких тестів, як Шапіро-Wilk , або тести Колмогорова-Смирнова , але часто найкраще оцінюють візуально через Qq-сюжет . (Зауважте, що це припущення, як правило, є найменш важливим із набору; якщо воно не виконане, ваші бета-оцінки все одно будуть неупередженими , але ваші р-значення будуть неточними.)
Існує кілька способів оцінити вплив ваших індивідуальних спостережень. Можна отримати числові значення, які індексують це, але мій улюблений спосіб, якщо ви це можете зробити, - це виграти нож своїми ногами. Тобто ви скидаєте кожну точку даних по черзі і перевстановлюєте свою модель. Тоді ви можете вивчити, наскільки ваші бета-версії відхиляються, якщо це спостереження не було частиною вашого набору даних. Цей захід називається dfbeta . Для цього потрібно трохи програмування, але є стандартні способи, за допомогою яких програмне забезпечення часто може обчислюватися автоматично. До них відносяться важелі та відстань Кука .
Y
Щодо "правильної шкали вимірювання пояснювальних змінних", я вважаю, що ви маєте на увазі рівні вимірювання Стівена (тобто категоричні, порядкові, інтервальні та співвідношення). Перше, що слід усвідомити, це те, що методи регресії (включаючи GLiM) не роблять припущень щодо пояснювальних змінних, натомість спосіб використання вами пояснювальних змінних у вашій моделі відображає ваші переконання щодо них. Крім того, я схильний вважати, що рівні Стівена переграли; Більш теоретичну обробку цієї теми дивіться тут .