У ненормальних умовах іноді вдаються до сильної регресії , особливо з використанням посилань на методи .
Щоб представити контекст ненормативності, може допомогти переглянути припущення для лінійної регресії OLS , які є:
- Слабка екзогенність . Це по суті означає, що змінні предиктора, x , можуть розглядатися як фіксовані значення, а не як випадкові змінні. Це означає, наприклад, що прогнозні змінні вважаються такими, що не мають помилок, тобто не забруднені помилками вимірювання. Це припущення є тим, яке найчастіше порушується і призводить до помилок, перерахованих за цим списком припущень.
- Лінійність. Це означає, що середнє значення змінної відгуку - це лінійна комбінація параметрів (коефіцієнтів регресії) та змінних предиктора. Зауважимо, що це припущення набагато менш обмежувальне, ніж може здатися спочатку. Оскільки змінні предиктора розглядаються як фіксовані значення (див. Вище), лінійність насправді є лише обмеженням параметрів. Самі змінні предиктора можуть бути довільно трансформовані, і насправді можуть бути додані кілька копій однієї основної змінної предиктора, кожна з яких трансформується по-різному.
- Постійна дисперсія (також гомоскедастичність). Це означає, що різні значення змінної відповіді мають однакову дисперсію у своїх помилках, незалежно від значень змінних предиктора. На практиці це припущення є недійсним (тобто помилки є гетероседастичними), якщо змінна відповіді може змінюватися в широкому масштабі. Для того, щоб перевірити наявність різнорідної дисперсії помилок або коли модель залишків порушує модельні припущення про гомоскедастичність (похибка однаково мінлива навколо "найкращої лінії" для всіх точок x), доцільно шукати "ефект роздуву" між залишковою помилкою та прогнозованими значеннями. Це означає, що відбудеться систематична зміна абсолютних або квадратних залишків, коли будуватимуться проти прогнозних змінних. Помилки не будуть рівномірно розподілені по лінії регресії. Гетероседастичність призведе до усереднення розрізнених варіацій навколо точок, щоб отримати єдину дисперсію, яка неточно представляє всі дисперсії лінії. Насправді, залишки виявляються кластеризованими та розподіляються на їх передбачених ділянках для більших та менших значень для точок по лінії лінійної регресії, а середня квадратична помилка для моделі буде неправильною.
- Незалежність помилок. Це передбачає, що помилки змінних відповідей не співвідносяться між собою. (Фактична статистична незалежність є сильнішою умовою, ніж проста відсутність кореляції, і вона часто не потрібна, хоча її можна використовувати, якщо відомо, що вона дотримується. Це останнє можна вивчити за допомогою кластерного аналізу та корекції взаємодії.) Деякі методи (наприклад, узагальнені найменші квадрати) здатні обробляти корельовані помилки, хоча вони, як правило, вимагають значно більшої кількості даних, за винятком випадків, коли регуляризація використовується для зміщення моделі щодо припущення некорельованих помилок. Байєсова лінійна регресія - це загальний спосіб вирішення цього питання.
Статистична залежність між термінами помилки та регресорами відіграє важливу роль у визначенні того, чи має процедура оцінки бажані властивості вибірки, такі як об'єктивна та послідовна.
Розташування, або розподіл ймовірності змінних предиктора x має великий вплив на точність оцінок β. Вибірка та проектування експериментів - це високорозвинені підполі статистики, які дають вказівки для збору даних таким чином, щоб досягти точної оцінки β.
Оскільки цей відповідь показує, моделюються Student's- розподілений осі Оу помилок від лінії призводить до МНК лінії регресії з довірчими інтервалами для нахилу і перехоплення , що збільшення розміру як міри свободи ( ) зниження. Для , Student's- є розподіл Коші і довірчі інтервали для нахилу стати .tydfdf=1t(−∞,+∞)
Довільно посилатися на розподіл Коші відносно залишків у тому сенсі, що, коли генеруючі помилки розподіляються Коші, залишки OLS з хибної лінії через дані будуть ще менш надійними, тобто сміття в --- сміття поза. У цих випадках можна використовувати регресію Тейль-Сена . Theil-Sen, безумовно, більш надійний, ніж OLS для ненормальних залишків, наприклад, розподілена помилка Коші не погіршила б довірчі інтервали, і на відміну від OLS також є двовимірною регресією, однак у випадку біваріанта вона все ще є упередженою. Регресія, що проходить через Баблок, може бути більш неоднозначною, неупередженою, але не стосується негативних регресійних схилів. Він найчастіше використовується для досліджень порівняльних методів. Слід згадати регресію Демінгатут, на відміну від регресій Тіль-Сена та Пасінг-Баблока, це фактичне рішення двоваріантної проблеми, але не вистачає стійкості цих інших регресій. Надійність може бути збільшена шляхом обрізання даних для включення більш центральних значень, наприклад, консенсус випадкових вибірок (RANSAC) є ітераційним методом для оцінки параметрів математичної моделі з набору спостережуваних даних, що містить залишків.
Що тоді є двовимірною регресією? Відсутність тестування на біваріантний характер проблем є найчастішою причиною розведення регресії OLS і було добре представлено в інших місцях на цьому сайті. Концепція упередженості OLS в цьому контексті недостатньо визнана, див., Наприклад, Фрост і Томпсон, представлені Лонгфордом та ін. (2001), який посилає читача на інші методи, розширюючи регресійну модель, щоб визнати мінливість змінної , щоб не виникало упередженості . Іншими словами, двоваріантну регресію випадку не можна ігнорувати, коли і - іx1 x y x y y 2 x y x y = f ( x )1xy-знаки розподіляються випадковим чином. Необхідність біваріантної регресії можна перевірити, встановивши регресійну лінію OLS до залишків з регресії даних OLS. Тоді, якщо залишки OLS мають ненульовий нахил, проблема є двовимірною і регрес даних OLS матиме величину схилу, що є занадто дрібним, і перехоплення, що має занадто велику величину, щоб бути репрезентативним функціональним співвідношенням між і . У цих випадках лінійний оцінювач найменшої помилки значень дійсно все ще буде від регресії OLS, і його значення R значення буде максимально можливим, але лінія регресії OLS не буде представляти фактичну функцію лінії, що стосується іxyy2xy випадкові величини. В якості протилежного прикладу, коли, як це трапляється серед інших проблем у часовому ряду з рівновіддаленими , OLS вихідних даних не завжди є недоречним, він може представляти найкращий рядок , але все ще підлягає змінної трансформації, наприклад для даних лічильників, потрібно взяти квадратний корінь підрахунків, щоб перетворити помилки розподіленої помилки Пуассона в більш нормальні умови, і все ж слід перевірити наявність ненульового нахилу залишків. xy=f(x)
- Лонгфорд, штат Нью-Йорк (2001). «Листування». Журнал Королівського статистичного товариства, серія A. 164: 565. doi: 10.1111 / 1467-985x.00219