Які припущення про регресію хребта і як їх перевірити?


21

Розглянемо стандартну модель для множинної регресії де , тому нормальність, гомоскедастичність та некорельованість помилок утримуються.

Y=Хβ+ε
εN(0,σ2Ян)

Припустимо, що ми виконуємо регресію хребта, додаючи однакову невелику кількість до всіх елементів діагоналі :Х

βriгге=[Х'Х+кЯ]-1Х'Y

Є деякі значення к для яких коефіцієнт хребта має меншу середню квадратичну помилку, ніж ті, отримані OLS, хоча βridge є упередженим оцінником β . На практиці k отримують шляхом перехресної перевірки.

Ось моє запитання: які припущення лежать в основі моделі гребеня? Щоб бути більш конкретним,

  1. Чи справедливі всі припущення звичайного найменшого квадрата (OLS) з регресією хребта?

  2. Якщо так, для питання 1, як ми перевіряємо гомоседастичність та відсутність автокореляції з упередженим оцінником β ?

  3. Чи є якась робота з тестування інших припущень OLS (гомоскедастичність та відсутність автокореляції) на регресію хребта?


6
Зверніть увагу, що OLS не передбачає, що прогноктори є незалежними. Такими припущеннями є лише певні конкретні методи рішення або формули. Важливим є те, як ви виберете множник регресії хребта, а не те, що оцінка може бути упередженою. Якщо цей множник обраний шляхом очного яблука сліду хребта, то ви насправді не маєте способу кількісної оцінки невизначеностей, що ставить під сумнів більшість формальних діагностичних тестів в теорії лінійної регресії. Це змушує мене запитати, що ви насправді маєте на увазі під «регресією хребта»: як саме ви оцінюєте його параметр? β
whuber

Можливо, я помиляюся, але враховуючи стандартну модель множинної регресії . І якщо не є повним рангом, це призводить до матриці , особливо у випадку високої розмірності X. Я відредагував своє запитання. Спасибі. βOLS=(XX)1XYXXX
аківес

1
Лінійна регресія може прекрасно справлятися з колінеарністю, доки вона не "занадто велика".
jona

3
Це не модель для множинної регресії: це лише один із способів виразити оцінку найменших квадратів. Коли не є оборотним, нормальними рівняння до сих пір рішення і (зазвичай) модель все ще має унікальне прилягання , що означає , що робить однозначні прогнози. XX
whuber

Відповіді:


21

Що таке припущення про статистичну процедуру?

Я не статистик і тому це може бути неправильним, але я думаю, що слово "припущення" часто використовується досить неофіційно і може стосуватися різних речей. Для мене "припущення" - це, строго кажучи, те, що може мати лише теоретичний результат (теорема).

Коли люди говорять про припущення про лінійну регресію ( див. Тут для поглибленої дискусії), вони зазвичай посилаються на теорему Гаусса-Маркова, яка говорить про те, що за припущеннями некоррельованих, рівних дисперсійних, нульових середніх помилок, оцінка OLS є СВІТЛОЮ , тобто є неупередженим і має мінімальну дисперсію. Поза контекстом теореми Гаусса-Маркова мені незрозуміло, що таке «припущення про регресію» навіть означало б.

Аналогічно, припущення, наприклад, однопробного t-випробування, відносяться до припущень, згідно з якими -статистика -розподілена, і, отже, висновок справедливий. Це не називається "теоремою", але це чіткий математичний результат: якщо зразків нормально розподілено, то -статистичний буде слідувати розподілу Стьюдента з ступенем свободи.ttnttn1

Припущення пенізованої методики регресії

Розглянемо зараз будь-яку техніку регуляризованої регресії: регресія хребта, ласо, еластична сітка, регресія основних компонентів, часткова найменша регресія квадратів тощо. Вся суть цих методів полягає в упередженій оцінці параметрів регресії та сподіванні зменшити очікуване збитки, використовуючи компроміс з відхиленням відхилення.

Всі ці методи включають один або кілька параметрів регуляризації, і жоден з них не має певного правила вибору значень цього параметра. Оптимальне значення зазвичай виявляється за допомогою певної процедури перехресної перевірки, але існують різні методи перехресної перевірки, і вони можуть дати дещо інші результати. Крім того, не рідкість застосовувати деякі додаткові правила на додаток до перехресної перевірки. Як результат, фактичний результат будь-якого з цих покараних регресійних методів насправді не визначений повністю методом, але може залежати від вибору аналітика.β^

Тому мені незрозуміло, як може бути якесь теоретичне твердження про оптимальність щодо , і тому я не впевнений, що говорити про "припущення" (наявність чи відсутність таких) пенізованих методів, таких як регресія хребта, має сенс взагалі. .β^

А як щодо математичного результату, що регресія хребта завжди перемагає OLS?

Hoerl & Kennard (1970) у " Редгресі Рейда: упереджена оцінка для неортогональних проблем" довели, що завжди існує значення параметра регуляризації таке, що оцінка регресії хребта має строго менший очікуваний збиток, ніж оцінка OLS. Це дивовижний результат - див. Тут для обговорення, але це лише доводить існування такої , яка буде залежати від набору даних.λβλ

Цей результат насправді не вимагає жодних припущень і завжди відповідає дійсності, але було б дивно стверджувати, що регресія хребта не має жодних припущень.

Гаразд, але як мені знати, чи можу я застосувати регресію хребта чи ні?

Я б сказав, що навіть якщо ми не можемо говорити про припущення, ми можемо говорити про правила . Добре відомо, що регресія хребта є найбільш корисною у випадку множинної регресії з корельованими предикторами. Загальновідомо, що вона, як правило, перевершує OLS, часто за великим відривом. Він, як правило, перевершує його навіть у випадку гетеросцедастичності, корельованих помилок чи будь-чого іншого. Отже, просте правило проголошує, що якщо у вас є багатоколінні дані, регресія хребта та перехресне підтвердження є хорошою ідеєю.

Напевно, є й інші корисні правила роботи та хитрощі торгівлі (наприклад, що робити з валовими людьми). Але вони не є припущеннями.

Зауважте, що для регресії OLS потрібно виконати деякі припущення, щоб дотримуватися значень. На противагу цьому, складно отримати -значення в регресії хребта. Якщо це взагалі робиться, це робиться шляхом завантаження або іншого подібного підходу, і знову важко буде вказати на конкретні припущення, оскільки математичних гарантій немає.pp


Наприклад, коли виводяться властивості умовиводу щодо якоїсь процедури, будь то властивості тесту гіпотези регресійного схилу або властивості довірчого інтервалу або інтервал прогнозування, наприклад, самі тести будуть отримані під деякими набір припущень. Оскільки в багатьох предметних областях на сьогодні найпоширенішою метою використання регресії є виконання якогось висновку (адже в деяких областях застосування це рідко робиться з будь-якої іншої причини), припущення, які були б зроблені для проведення інфекційної процедури, природно пов'язані with ...
ctd

ctd ... річ, на яку вони використовуються. Отже, якщо вам потрібні певні припущення, щоб отримати t-тест для тестування коефіцієнта регресії або для часткового тесту F або для CI для середнього або інтервалу прогнозування ... і звичайні форми висновку роблять однакові або майже таку ж сукупність припущень, то ці обґрунтовано вважатимуться припущеннями, пов'язаними з виконанням висновку з використанням цієї речі. Якщо потрібно зробити якийсь висновок з регресією хребта (скажімо, інтервал прогнозування) і зробити припущення для цього, це можна сказати так само, як припущення ...
ctd

необхідні, щоб мати можливість вивести (і, мабуть, тоді використовувати) саме такий вид висновку за регресією хребта.
Glen_b -Встановіть Моніку

R2

1
Не пізно сподіваюся сказати спасибі @amoeba. Чудова відповідь!
akyves

1

Я хотів би надати деякий внесок з точки зору статистики. Якщо Y ~ N (Xb, sigma2 * In), то середня квадратна похибка b ^ дорівнює

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Якщо XT X приблизно дорівнює нулю, то inv (XT X) буде дуже великим. Тож оцінка параметра b не є стабільною і може мати наступну проблему.

  1. деяке абсолютне значення оцінки параметра дуже велике
  2. b має протилежний позитивний чи негативний знак, ніж очікувалося.
  3. Додавання або видалення змінних або спостережень призведе до значного зміни оцінок параметрів.

Для того щоб зробити порядкову оцінку найменшого квадрата b стабільною, ми вводимо регресію хребта, оцінюючи b^(k)=inv(X.T*X+kI)*X.T*Y.І, і ми можемо довести, що завжди існує ak, який робить середню квадратичну помилку

MSE(b^(k)) < MSE(b^).

У машинному навчанні регресія хребта називається регуляризацією L2 і призначена для боротьби з надмірними проблемами, спричиненими багатьма особливостями.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.