чи слід змінити масштаб індикаторів / бінарних / фіктивних прогнокторів для LASSO


30

Для LASSO (та інших процедур вибору моделі) дуже важливо змінити масштаби прогнозів. Загальна рекомендація я дотримуюся просто використовувати 0, 1 середнє стандартне відхилення нормалізації для безперервних змінних. Але що тут робити з манекенами?

Наприклад, кілька прикладних прикладів тієї ж (чудової) літньої школи, яку я пов’язував із перерахунком змінних безперервних змінних, що становлять від 0 до 1 (хоча це не чудово для людей, що втратили люди), ймовірно, можна порівняти з манекенами. Але навіть це не гарантує, що коефіцієнти повинні бути однаковими порядками, і таким чином штрафуватися аналогічно, ключовою причиною зміни шкали, ні?


2
Коротка відповідь - ні, не міняйте манекенів
Affine

4
Пов’язане з цим
липень

@julieth, велике спасибі, дайте мені знати, якщо ви знайшли відповіді з тих пір.
Ласло

Відповіді:


27

Відповідно до Тібшірані ( МЕТОД ЛАССО ДЛЯ ВІДМІННОГО ВИБОРУ В МОДЕЛІ КОХА, Статистика в медицині, ТОП 16, 385-395 (1997) ), який буквально написав книгу про методи регуляризації, слід стандартизувати манекенів. Однак ви втрачаєте пряму інтерпретацію своїх коефіцієнтів. Якщо цього не зробити, ваші змінні не знаходяться на рівних умовах. Ви по суті нахиляєте ваги на користь своїх постійних змінних (швидше за все). Отже, якщо вашою основною метою є вибір моделі, то це жахлива помилка. Однак якщо вас більше цікавить інтерпретація, можливо, це не найкраща ідея.

Рекомендація знаходиться на сторінці 394:

Метод Лассо вимагає початкової стандартизації регресорів, щоб схема штрафу була справедливою для всіх регресорів. Для категоричних регресорів один кодує регресора фіктивними змінними, а потім стандартизує фіктивні змінні. Однак, як зазначив суддя, відносне масштабування між безперервними та категоричними змінними у цій схемі може бути дещо довільним.


3
Ви можете надати точну посилання на те, де Тібширані пропонує стандартизувати манекени.
seanv507

@ seanv507 "... кодує регресори фіктивними змінними, а потім стандартизує фіктивні змінні ". Я вважаю, що пояснення рократа є правильним: загалом ви хочете, щоб усі прогнози, включаючи муляжів, мали однаковий масштаб і відхилення, щоб санкція була справедливою.
Роберт Кубрик

1
@RobertKubrick Я не згоден. Основна причина регуляризації полягає в тому, що невеликі зміни повинні мати невеликі наслідки. Отже, ідеальний випадок - всі ваші змінні мають природну фізичну шкалу, залежно від вашої змінної, і ви не нормалізуєте їх. Зазвичай ми не знаємо правильної шкали, тому вдаємося до нормалізації. Однак категоричні змінні мають таку природну шкалу, а саме ймовірність того, що вони дорівнюють 0 або 1: Я б стверджував, що змінна, яка є більшою частиною часу 0, менш важлива, ніж змінна, яка перевертається між 0/1. Натомість відповідь Джеффа здається доречною.
seanv507

8

Повідомлення в блозі Ендрю Гелмана, " Коли стандартизувати введення регресії та коли їх залишити в спокої" , також варто подивитися. Зокрема, ця частина є актуальною:

Для порівняння коефіцієнтів для різних предикторів у моделі, стандартизація отримує кивок. (Хоча я не стандартизую двійкові входи. Я кодую їх як 0/1, а потім я стандартизую всі інші числові входи шляхом ділення на два стандартних відхилення, таким чином, розміщуючи їх приблизно на тій же шкалі, що і змінні 0/1.)


1
І коли він каже: "не стандартизуйте бінарні дані" , він, схоже, має на увазі будь-яку гарячу групу змінних, тобто будь-які манекени для категоричних змінних?
smci

2
p(1-p)p=0,50,25

x -> x / 2σ


3

Це скоріше коментар, але занадто довго. Одним з найбільш часто використовуваного програмного забезпечення для ласо (і друзів) є R - х glmnet. З довідкової сторінки, надрукованої ?glmnet:

стандартизація: Логічний прапор для x змінної стандартизації до встановлення послідовності моделі. Коефіцієнти завжди повертаються у вихідній шкалі. За замовчуванням - "стандартизувати = ІСТИНА". Якщо змінні вже є в одних і тих же одиницях, можливо, ви не хочете їх стандартизувати. Див. Деталі нижче щодо стандартизації y 'family = "gaussian"'.

Х

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.