Як ви заявляєте, лінійні моделі, як правило, простіші, ніж нелінійні моделі, тобто вони працюють швидше (побудова та прогнозування), їх легше інтерпретувати та пояснювати, і, як правило, прямо вперед при вимірюванні помилок. Отже, мета - з'ясувати, чи припущення про лінійну регресію відповідають вашим даним (якщо ви не підтримуєте лінійну, то просто перейдіть з нелінійною). Зазвичай ви повторите свою однозмінну ділянку з усіма змінними окремо, тримаючи всі інші змінні постійними.
Можливо, ще важливіше, але ви хочете знати, чи можете ви застосувати якусь трансформацію, змінну взаємодію або фіктивну змінну для переміщення даних у лінійний простір. Якщо ви в змозі перевірити припущення, або якщо ви досить добре знаєте свої дані, щоб застосувати мотивовані або іншим чином інтелектуально інформовані перетворення або модифікації, тоді ви хочете продовжити це перетворення та використовувати лінійну регресію. Отримавши залишки, ви можете побудувати їх на основі прогнозованих значень або незалежних змінних, щоб вирішити, чи потрібно переходити до нелінійних методів.
Тут у Дюка чудово розбивається припущення про лінійну регресію . Перераховано чотири основні припущення, і кожне з них розбивається на вплив на модель, як діагностувати їх у даних та потенційні способи "виправити" (тобто перетворити або додати) дані, щоб припустити припущення. Ось невеликий уривок зверху, який підсумовує чотири звернені припущення, але вам слід піти туди і прочитати розбивки.
Існують чотири основні припущення, які виправдовують використання лінійних регресійних моделей для цілей висновку чи прогнозування:
(i) лінійність та адекватність зв’язку між залежними та незалежними змінними:
(a) Очікуване значення залежної змінної - це пряма функція кожної незалежної змінної, утримуючи інші фіксованими.
(b) Нахил цієї лінії не залежить від значень інших змінних.
(c) Вплив різних незалежних змінних на очікуване значення залежної змінної є адитивним.
(ii) статистична незалежність помилок (зокрема, відсутність кореляції між> послідовними помилками у випадку даних часових рядів)
(iii) гомоскедастичність (постійна дисперсія) помилок
(а) по відношенню до часу (у випадку даних часових рядів)
(b) проти прогнозів
(c) проти будь-якої незалежної змінної
(iv) нормальність розподілу помилок.