У мене виникають деякі проблеми з виведенням рішення для регресії хребта.
Я знаю рішення регресії без терміну регуляризації:
Але після додавання терміна L2 до функції витрат, яким чином стає рішенням
У мене виникають деякі проблеми з виведенням рішення для регресії хребта.
Я знаю рішення регресії без терміну регуляризації:
Але після додавання терміна L2 до функції витрат, яким чином стає рішенням
Відповіді:
Досить змінити функцію втрат, додавши штраф. У матричному відношенні початковою квадратичною втратою стає
Давайте побудуємо на тому, що ми знаємо, а саме: щоразу, коли матриця моделі дорівнює , відповідь -вектор - , а параметр -vector - , цільова функція
(що є сумою квадратів залишків) зводиться до мінімуму, коли розв'язує нормальні рівняння
Регресія хребта додає ще один термін до цільової функції (зазвичай після стандартизації всіх змінних для того, щоб поставити їх на загальну основу), вимагаючи мінімізувати
для деякої негативної константи . Це сума квадратів залишків плюс кратна сумі квадратів самих коефіцієнтів (очевидно, що він має глобальний мінімум). Оскільки , він має позитивний квадратний корінь .
Розглянемо матрицю доповненої з рядами , відповідні раз в одиничну матрицю :
Коли вектор аналогічно розширений з нулями в кінці до , матричний добуток в цільовій функції додає додаткові умови форми до початкової мети. Тому
З форми виразу лівої руки випливає, що нормальні рівняння є
Оскільки ми примикали нулі до кінця , права рука є такою ж, як . На лівій стороні додається до вихідного . Тому нові нормальні рівняння спрощуються до
Крім концептуально економічного - для отримання цього результату не потрібні нові маніпуляції - це також обчислювально економічно: ваше програмне забезпечення для виконання звичайних найменших квадратів також буде робити регресію хребта без будь-яких змін. (Тим не менш, може бути корисним у великих проблемах використання програмного забезпечення, розробленого для цієї мети, оскільки воно буде використовувати спеціальну структуру для ефективного отримання результатів для щільно розташованого інтервалу , що дозволяє вивчити, як змінюються відповіді з .)
Ще одна краса такого способу погляду на речі полягає в тому, як це може допомогти нам зрозуміти регресію хребта. Коли ми хочемо реально зрозуміти регресію, це майже завжди допомагає думати про це геометрично: стовпці складають вектори в реальному векторному просторі розмірності . Приєднуючи до , тим самим продовжуючи їх від векторів до векторів, ми вбудовуємо у більший простір , включаючи "уявні", взаємно ортогональні напрямки. Перший стовпчикнадається невеликий уявний компонент розміру , тим самим подовжуючи його та переміщуючи його з простору, створеного вихідними стовпцями. Другий, третій, ..., стовпці аналогічно подовжуються та переміщуються з вихідного простору на однакову кількість - але все в різних нових напрямках. Отже, будь-яка колінеарність, присутня в початкових колонках, буде негайно вирішена. Більше того, чим більше стає, тим більше ці нові вектори наближаються до окремихуявні напрямки: вони стають все більш ортонормальними. Отже, рішення нормальних рівнянь негайно стане можливим і воно швидко стане чисельно стабільним, оскільки зростає з .
Цей опис процесу наводить певний роман та творчий підхід до вирішення проблем, з якими Ridge Regression був розроблений для вирішення. Наприклад, використовуючи будь-які засоби (такі як дисперсійне розкладання, описані Belsley, Kuh і Welsch у своїй книзі 1980 р. Про регресійну діагностику , глава 3), ви можете виявити підгрупи майже колінеарних стовпців , де кожна підгрупа є майже ортогональним для будь-якого іншого. Вам потрібно приєднати стільки рядків до (і нулів до ), скільки елементів у найбільшій групі, присвячуючи один новий "уявний" вимір для переміщення кожного елемента групи від його побратимів: вам не потрібно уявного розміри для цього.
Нещодавно я натрапив на те саме питання в контексті P-Splines, і оскільки концепція однакова, я хочу дати більш детальну відповідь щодо виведення оцінювача гребеня.
Почнемо з пеналізованої критеріальної функції, яка відрізняється від класичної функції критерію OLS своїм терміном пеналізації в останньому підсумку:
де
Ми можемо переписати цей критерій у матричній нотації та далі розбити його:
з матрицею ідентичності
Тепер ми шукаємо що мінімізує наш критерій. Серед інших ми використовуємо правило диференціації матриць яке ми можемо застосувати тут як :
У наведених відповідях є кілька важливих речей.
Рішення для виходить із необхідної умови першого порядку: що дає . Але чи достатньо цього? Тобто рішення є глобальним мінімумом лише у тому випадку, якщо є строго опуклим. Це може бути показано правдою.
Ще один спосіб розглянути проблему - побачити еквівалентність між та обмежений . OLS означає звичайні найменші квадрати. З цієї точки зору - просто функція Лагрангія, яка використовується для пошуку глобальних мінімумів опуклої цільової функції обмежених опуклою функцією .
Гарне пояснення цих моментів та виведення можна знайти в цих прекрасних конспектах лекцій: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf