Чому регресію хребта називають "хребет", чому він потрібен і що відбувається, коли переходить до нескінченності?


71

Оцінка коефіцієнта регресії хребта - значення, що мінімізують значенняβ^R

RSS+λj=1pβj2.

Мої запитання:

  1. Якщо , ми бачимо, що вираз вище зводиться до звичайного RSS. Що робити, якщо ? Я не розумію в підручнику пояснення поведінки коефіцієнтів.λ=0λ

  2. Для того, щоб допомогти зрозуміти поняття, що стоїть за певним терміном, чому цей термін називають регресією RIDGE? (Чому хребет?) І що могло бути не так із звичайною / загальною регресією, що існує необхідність ввести нову концепцію, що називається регресією хребта?

Ваша думка була б чудовою.

Відповіді:


89

Оскільки ви попросите зрозуміти , я збираюся скористатися досить інтуїтивним підходом, а не більш математичним:

  1. Дотримуючись концепцій у моїй відповіді тут , ми можемо сформулювати регресію хребта як регресію з фіктивними даними, додавши (у вашу формулювання) спостереження, де , і для . Якщо ви випишете новий RSS для цього розширеного набору даних, ви побачите додаткові спостереження, що додають кожний додаток форми , так новий RSS - це оригінальний - і мінімізація RSS у цьому новому розширеному наборі даних аналогічна мінімізації критерію регресії хребта.pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    То що ми можемо побачити тут? Зі збільшенням додаткові ріжки мають один компонент, який збільшується, і тому вплив цих точок також збільшується. Вони тягнуть приталений гіперплан до себе. Тоді як та відповідні компоненти 's відходять у нескінченність, всі задіяні коефіцієнти "вирівнюються" до .λxλx0

    Тобто, як , штраф буде домінувати над мінімізацією, тому s перейде до нуля. Якщо перехоплення не штрафується (звичайний випадок), то модель все більше і більше скорочується до середнього рівня відповіді.λβ

  2. Я дам інтуїтивно зрозуміти, чому ми спочатку говоримо про хребти (що також говорить про те, навіщо це потрібно), а потім торкнумось невеликої історії. Перший адаптований з моєї відповіді тут :

    Якщо є мультиколінеарність, ви отримуєте "хребет" у функції ймовірності (вірогідність є функцією ). Це в свою чергу дає довгу "долину" в RSS (оскільки RSS = ).β2logL

    Регресія хребта "фіксує" хребет - це додає штраф, який перетворює хребет на хороший пік у ймовірності простору, що еквівалентно приємну депресію в критерії, який ми мінімізуємо:

    хребет у ЛШ перетворюється на пік регресії хребта
    [ Ясніше зображення ]

    Справжня історія, що стоїть за назвою, трохи складніша. У 1959 р. А. Е. Герл [1] ввів аналіз хребта для методології поверхні реакцій, і він дуже скоро [2] пристосувався до боротьби з мультиколінеарністю в регресії ("регресія хребта"). Див., Наприклад, обговорення RW Hoerl в [3], де він описує використання Hoerl (AE не RW) використання контурних ділянок поверхні відгуку * у визначенні куди звернутися, щоб знайти локальну оптимуму (де один "підводить голову вгору" хребет '). У невмовно обумовлених проблемах виникає проблема дуже довгого хребта, і розуміння та методологія аналізу гребеня пристосовуються до пов'язаного питання з імовірністю / RSS в регресії, виробляючи регресію хребта.

* приклади контурних графіків поверхні відповіді (у випадку квадратичної відповіді) можна побачити тут (рис. 3.9-3.12).

Тобто "хребет" насправді відноситься до характеристик функції, яку ми намагалися оптимізувати, а не додавати "хребет" (+ діагональ) до матриці (тому, поки регресія хребта не додає діагоналі, тому ми не називаємо це регресом хребта).XTX

Для отримання додаткової інформації про необхідність регресії хребта див. Перше посилання під пунктом 2. списку вище.


Список літератури:

[1]: Hoerl, AE (1959). Оптимальне рішення багатьох рівнянь змінних. Прогрес хімічної інженерії , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Застосування гребінного аналізу до проблем регресії. Прогрес хімічної інженерії , 58 (3) 54-59.

[3] Hoerl, RW (1985). Аналіз хребта через 25 років. Американський статистик , 39 (3), 186-192


2
Це надзвичайно корисно. Так, коли я просив розуміння, я шукав інтуїцію. Звичайно математика важлива, але я також шукав концептуальні пояснення, бо є деякі частини, коли математика була просто поза мною. Знову дякую.
cgo

Чому ви маєте слово "зважений" у крапці 1?
амеба

1
Це гарне запитання; немає необхідності в його зважуванні, якщо не був зважений початковий регрес. Я прибрав прикметник. Це також можна записати як зважену регресію (що, якщо ви вже робите зважену регресію, може бути дуже легше впоратися).
Glen_b

36
  1. Якщо то наш штрафний термін буде нескінченним для будь-якого окрім , тож це ми отримаємо. Немає іншого вектора, який би дав нам кінцеве значення цільової функції.λββ=0

(Оновлення: див. Відповідь Glen_b. Це не правильна історична причина!)

  1. Це відбувається з рішення регресії хребта в матричній нотації. Рішення виявляється Термін додає "хребет" до основної діагоналі та гарантує, що отримана матриця є незворотною. Це означає, що на відміну від OLS, ми завжди знайдемо рішення.
    β^=(XTX+λI)1XTY.
    λI

Регресія хребта корисна, коли предиктори корелюють. У цьому випадку OLS може дати дикі результати з величезними коефіцієнтами, але якщо вони будуть накладені штрафи, ми можемо отримати набагато більш розумні результати. Загалом великою перевагою регресії хребта є те, що рішення завжди існує, як було сказано вище. Це стосується навіть випадку, коли , для якого OLS не може надати (унікального) рішення.n<p

Регресія хребта також є результатом, коли на вектор " введено нормальне значення .β

Ось байєсівська регресія хребта: припустимо, нашим попереднім для є . Тоді тому, що [за припущенням] маємо, що ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

Давайте знайдемо задній режим (ми також можемо поглянути на задню середню або інші речі, але для цього давайте розглянемо режим, тобто найбільш вірогідне значення). Це означає, що ми хочемо що еквівалентно

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
оскільки суворо монотонний, і це в свою чергу еквівалентно log
minβRp||yXβ||2+λβTβ

який повинен виглядати досить знайомо.

Таким чином, ми бачимо, що якщо поставити нормальний пріоритет із середнім 0 та дисперсією на наш вектор, значення яке максимально збільшує заднє, є оцінкою хребта. Зауважте, що це трактує більше як парафіністський параметр, тому що в ньому немає попереднього, але він не відомий, тому це не повністю байєсівське.σ2λββσ2

Редагувати: ви запитували про випадок, коли . Ми знаємо, що гіперплощина в визначається точно пунктами. Якщо ми запускаємо лінійну регресію і то точно інтерполюємо наші дані і отримуємо . Це рішення, але воно жахливе: наша робота над майбутніми даних, швидше за все, буде безглуздою. Тепер припустимо, що : більше не існує унікальної гіперплани, визначеної цими точками. Ми можемо помістити безліч гіперпланів, кожен з яких має 0 залишкових сум квадратів.n<pRppn=p||yXβ^||2=0n<p

Дуже простий приклад: припустимо, . Тоді ми просто отримаємо лінію між цими двома точками. Тепер припустимо, що але . Зобразіть площину з цими двома точками. Ми можемо обертати цю площину, не змінюючи того факту, що ці дві точки знаходяться в ній, тому існує незліченно багато моделей, які мають ідеальне значення нашої цільової функції, тож навіть поза питанням оздоблення не зрозуміло, яку вибрати.n=p=2n=2p=3

Як остаточний коментар (за пропозицією @ gung), LASSO (за допомогою штрафу ) зазвичай використовується для проблем з високими розмірами, оскільки він автоматично здійснює вибір змінних (задає деякі ). Досить приємно, виявляється, що LASSO еквівалентний пошуку заднього режиму при використанні подвійного експоненціалу (він же Лаплас) до вектора . LASSO також має деякі обмеження, такі як насичення на провісниках та необов'язково обробляти групи корельованих предикторів ідеально, тому еластична сітка (опукла комбінація покарань та ) може бути принесена в дію.L1βj=0βnL1L2


1
(+1) Вашу відповідь можна було б покращити, розробивши зв’язок між Байєсовою та гребінною регресією.
Sycorax

1
Зробимо - зараз набравши це.
jld

4
OLS не може знайти унікальне рішення, коли оскільки матриця дизайну не повна. Це дуже поширене питання; шукайте в архівах опис того, чому це не працює. n<p
Sycorax

2
@cgo: пояснення та пропозиція user777 для пошуку є хорошим, але заради повноти я також додав (сподіваюсь) інтуїтивне пояснення.
jld

5
+1, приємна відповідь. Повторне <p, ви можете згадати, що LASSO зазвичай використовується в даному випадку, і що він тісно пов'язаний з RR.
gung
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.