Питання про стандартизацію в регресії хребта


17

Ей, хлопці, я знайшов один-два документи, які використовують регресію хребта (для даних баскетболу). Мені завжди казали стандартизувати свої змінні, якщо я провів регресію хребта, але мені просто сказали це зробити, тому що хребет був варіантом масштабу (регресія хребта насправді не була частиною нашого курсу, тому наш лектор проглянув його).

Ці статті, які я читав, не стандартизували їх змінні, що мені було трохи дивно. Вони також отримали великі значення лямбда (приблизно на рівні 2000-4000 рр.) За допомогою перехресної перевірки, і мені сказали, що це пов'язано з не стандартизацією змінних.

Як саме залишається нестандартна змінна (і) призводить до високих значень лямбда, а також, які наслідки не є стандартизацією змінних в цілому? Це справді така велика справа?

Будь-яка допомога дуже цінується.

Відповіді:


18

Регрес хребта регулює лінійну регресію шляхом накладення штрафу на розмір коефіцієнтів. Таким чином, коефіцієнти скорочуються до нуля та один до одного. Але коли це відбувається і якщо незалежні змінні не мають однакової шкали, зменшення не є справедливим. Дві незалежні змінні з різною шкалою матимуть різний внесок до пенізованих доданків, оскільки пенізований доданок - це сума квадратів усіх коефіцієнтів. Щоб уникнути подібних проблем, дуже часто незалежні змінні центрируються та масштабуються, щоб мати варіацію 1.

[Пізніше редагуйте, щоб відповісти на коментар]

годеiггодт

Термін пеналізації з лямбда - це те саме, що виражає функцію квадратних втрат відносно суми квадратних коефіцієнтів, менших або рівних заданій постійній. Це означає, що більша лямбда дає багато місця площі суми коефіцієнтів, а нижня лямбда - менший простір. Більший або менший простір означає більші або менші абсолютні значення коефіцієнтів.

Якщо не використовувати стандартизацію, то для відповідності моделі можуть знадобитися великі абсолютні значення коефіцієнтів. Звичайно, у нас може бути велике значення коефіцієнта, природно, через роль змінної в моделі. Я зазначаю, що це значення може мати штучно завищене значення через не масштабування. Отже, масштабування також зменшує потребу у великих значеннях коефіцієнтів. Таким чином, оптимальне значення лямбда буде зазвичай меншим, що відповідає меншій сумі значень квадратів коефіцієнтів.


Спасибі. Як би стандартизація не призвела до більш високої оціночної помилки тесту (шляхом перехресної перевірки), і, таким чином, потрібна більш висока лямбда?
l_davies93

Я додав свою думку у відповідь
rapaio

Я знаю, що це старе запитання, але чи можете ви пояснити, чому параметр тюнінгу повинен збільшуватися, якщо ми, наприклад, перетворимо наші дані з кілометрів у метри
Leo96,

1

Хоча запізниться на чотири роки, сподіваюся, що хтось отримає користь від цього .... Як я це зрозумів, коефіцієнт - це те, наскільки змінна цільової змінної змінюється на одиницю зміни незалежної змінної (dy / dx). Припустимо, що ми вивчаємо співвідношення ваги та зросту, а вага вимірюється в Кг. Коли ми використовуємо Кілометри для висоти, ви можете уявити, що більшість точок даних (для росту людини) упаковані близько. Таким чином, для невеликої дробової зміни висоти відбудеться величезна зміна ваги (якщо припустити збільшення ваги з ростом). Співвідношення dy / dx буде величезним. З іншого боку, якщо висота вимірюється в міліметрах, дані будуть поширюватися далеко і в ширину за атрибутами висоти. Зміна одиниці висоти не матиме значних змін у вазі, вага / dx буде дуже маленьким, майже близьким до 0.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.