У регресії хребта цільовою функцією, яку слід мінімізувати, є:
Чи можна це оптимізувати за допомогою методу множника Лагранжа? Або це пряма диференціація?
У регресії хребта цільовою функцією, яку слід мінімізувати, є:
Чи можна це оптимізувати за допомогою методу множника Лагранжа? Або це пряма диференціація?
Відповіді:
Існує дві рецептури для проблеми хребта. Перший - це
на тему
Цей склад показує обмеження розміру на коефіцієнти регресії. Зверніть увагу, що означає це обмеження; ми змушуємо коефіцієнти лежати в кулі навколо початку, радіусом .
Друга рецептура - це саме ваша проблема
що може розглядатися як мультиплікаційний склад Ларгранжа. Зауважте, що тут є параметром настройки, і більші його значення приведуть до більшої усадки. Ви можете перейти до диференціації виразу відносно та отримати відомий оцінювач гребнів
Дві рецептури є повністю рівнозначними , оскільки існує відповідність один до одного між та .
Дозвольте трохи детальніше розглянути це. Уявіть, що ви перебуваєте в ідеальному ортогональному випадку . Це дуже спрощена та нереальна ситуація, але ми можемо дослідити оцінку трохи ближче, тому поводиться зі мною. Поміркуйте, що відбувається з рівнянням (1). Оцінка гребеня зводиться до
як і в ортогональному випадку, оцінювач OLS задається . Дивлячись на цей компонент, мудрий зараз
Тоді зауважте, що тепер усадка є постійною для всіх коефіцієнтів. У загальному випадку це може бути недоступним, і справді можна показати, що усадки будуть сильно відрізнятися, якщо в матриці є виродження .
Але повернемося до обмеженої проблеми оптимізації. За теорією KKT , необхідною умовою оптимальності є
тому або або (у цьому випадку ми говоримо, що обмеження є обов'язковим). Якщо , немає пенальті, і ми знову в звичайній ситуації з OLS. Припустимо, тоді обмеження є обов'язковим, і ми опинимось у другій ситуації. Використовуючи формулу в (2), ми маємо
звідки ми отримуємо
відносини один на один, заявлені раніше. Я думаю, що це важче встановити в неортогональному випадку, але результат несе незалежність.
Подивіться ще раз на (2), і ви побачите, що ми все ще відсутня . Щоб отримати оптимальне значення для нього, ви можете скористатися перехресною валідацією або переглянути слід хребта. Останній метод включає побудову послідовності в (0,1) і перегляд того, як змінюються оцінки. Потім вибираєте яка їх стабілізує. Цей метод був запропонований у другому з наведених нижче посилань, і є найдавнішим.
Список літератури
Херль, Артур Е. та Роберт В. Кеннард. "Регресія хребта: Об'єктивна оцінка неортогональних проблем". Технометрія 12.1 (1970): 55-67.
Херль, Артур Е. та Роберт В. Кеннард. "Регресія хребта: додатки до неортогональних проблем." Технометрія 12.1 (1970): 69-82.
Мої книги " Стратегії моделювання регресії" заглиблюються у використання ефективного AIC для вибору . Це походить від пеніалізованої вірогідності журналу та ефективних ступенів свободи, останній залежить від того, наскільки зменшення відхилень зменшуються пеналізацією. Презентація про це є тут . R Пакет Знаходить , який оптимізує ефективний АІК, а також дозволяє кілька параметрів штрафу (наприклад, один для лінійних основних ефектів, один для нелінійних основних ефектів, один для лінійних ефектів взаємодії, і один для нелінійних ефектів взаємодії).rms
pentrace
Я не роблю це аналітично, а скоріше чисельно. Я зазвичай будувати RMSE проти λ як такий:
Рисунок 1. RMSE і константа λ або альфа.