Я зрозумів, як регресія хребта зменшує коефіцієнти до нуля геометрично. Більше того, я знаю, як довести це в спеціальній "Ортонормічній справі", але мене бентежить, як це працює в загальному випадку за допомогою "Спектральної декомпозиції".
Я зрозумів, як регресія хребта зменшує коефіцієнти до нуля геометрично. Більше того, я знаю, як довести це в спеціальній "Ортонормічній справі", але мене бентежить, як це працює в загальному випадку за допомогою "Спектральної декомпозиції".
Відповіді:
Здається, питання вимагає продемонструвати, що регрес Рідж зменшує оцінки коефіцієнтів до нуля, використовуючи спектральне розкладання. Спектральне розкладання можна зрозуміти як легкий наслідок розкладання сингулярного значення (SVD). Тому ця публікація починається з SVD. Він пояснює це простими словами, а потім ілюструє це важливими програмами. Потім він забезпечує запитувану (алгебраїчну) демонстрацію. (Звичайно, алгебра ідентична геометричній демонстрації; вона просто купірується іншою мовою.)
Оригінальне джерело цієї відповіді можна знайти в моїх записках з регресійного курсу . Ця версія виправляє деякі незначні помилки.
Будь-яку матрицю , з , можна записати деX p ≤ n X = U D V ′
n × p - матриця .
- матриця .
- діагональна матриця .
Критерії (1) і (2) стверджують, що і і є ортонормальними матрицями. Їх можна акуратно підсумувати за умовами
Як наслідок (що являє собою обертання), також. Це буде використано в деривації регресної регресії нижче.
Це може спростити формули. Це працює як алгебраїчно, так і концептуально. Ось кілька прикладів.
Розглянемо регресію де, як завжди, незалежні та однаково розподілені відповідно до закону, який має нульові очікування та кінцеву дисперсію . Рішення найменших квадратів через звичайні рівняння - Застосування SVD та спрощення отриманого алгебраїчного безладу (що легко) дає хороше розуміння:
Єдина відмінність між цим і полягає в тому, що використовуються зворотні елементи елементів ! Іншими словами, "рівняння" розв'язується шляхом "інвертування" : ця псевдоінверсія скасовує обертання і (просто шляхом їх переміщення) і скасовує множення (представлене ) окремо в кожному головному напрямку.
Для подальшої довідки зауважте, що "поворотні" оцінки є лінійними комбінаціями "обертаних" відповідей . Коефіцієнти - це звороти (позитивних) діагональних елементів , рівних .
Нагадаємо, що коваріація оцінок - Використовуючи SVD, це стає Іншими словами, коваріація діє подібно до ортогональних змінних, кожна з варіаціями , які повернуті в .
Матриця капелюхів -За допомогою попереднього результату ми можемо переписати його якПросто!
Оскільки та то негайно
SVD може діагностувати та вирішувати проблеми колінеарності.
Замінивши найменші значення однини на нулі, ви змінить твір лише незначно. Однак тепер нулі усувають відповідні стовпці , ефективно зменшуючи кількість змінних. За умови, що ці усунені стовпці мають невелику кореляцію з , це може ефективно працювати як техніка зменшення змінних.
Нехай стовпці будуть стандартизовані, як і сам . (Це означає, що нам більше не потрібен постійний стовпчик у ) Для оцінювач хребта
Різниця між цим і є заміна по . По суті, це помножує оригінал на дріб . Оскільки (коли ) знаменник, очевидно, більший за чисельник, параметр оцінює "зменшення до нуля".
Цей результат слід розуміти у дещо тонкому сенсі, на який натякали раніше: поворотні оцінки все ще є лінійними комбінаціями векторів , але кожен коефіцієнт - який раніше був - помножено на коефіцієнт . Таким чином, обертаються коефіцієнти повинні скорочуватися, але можливо, коли є достатньо малим, деякі з самі фактично збільшуються в розмірі.
Щоб уникнути відволікань, у цій дискусії був виключений випадок одного з більше нульових сингулярних значень. За таких обставин, якщо ми умовно вважаємо " " рівним нулю, то все одно працює. Це те, що відбувається, коли для вирішення нормальних рівнянь використовуються узагальнені звороти .