Як ставитись до категоричних прогнозів у LASSO


17

Я запускаю LASSO, який має деякі категоричні прогнози змінних і деякі безперервні. У мене питання щодо категоричних змінних. Перший крок, який я розумію, - це розбити кожного з них на манекени, стандартизувати їх для справедливої ​​штрафу, а потім регресувати. Існує кілька варіантів для обробки фіктивних змінних:

  1. Включіть усі, крім однієї, манекенів для кожного фактора, залишивши цей як орієнтир. Інтерпретація фіктивного коефіцієнта відносно виключеної категорії "еталон". Тепер перехоплення - це середня відповідь для еталонної категорії.

  2. Згрупуйте змінні у кожному факторі, щоб вони були виключені або включені всі, але не всі. Я вважаю, що саме тут пропонує @Glen_b :

    Як правило, так, ви тримаєте всі фактори разом. Є кілька пакетів R, які можуть це зробити, включаючи glmnet

  3. Додайте всі рівні, як це було запропоновано @ Андрій М тут :

    Ви також можете змінити контрастну функцію за замовчуванням, яка за замовчуванням залишає один рівень кожного фактора (кодування лікування). Але через покарання за ласо це більше не потрібно для ідентифікації, і фактично ускладнює інтерпретацію вибраних змінних. Для цього встановіть

    contr.Dummy <- function(contrasts, ...){
       conT <- contr.treatment(contrasts=FALSE, ...)
       conT
    }
    options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy'))
    

    Тепер, які б рівні фактора не були вибрані, ви можете вважати, що ці конкретні рівні мають значення проти всіх пропущених рівнів. У машинному навчанні я бачив це кодування, яке називається однокольоровим кодуванням.

Запитання:

  1. Яке тлумачення перехоплення та коефіцієнтів у кожному з цих підходів?
  2. Які міркування пов'язані з вибором одного з них?
  3. Чи відміняємо ми масштабні коефіцієнти манекенів, а потім інтерпретуємо їх як зміну, що переходить від відключеного до іншого?

Відповіді:


6

При роботі з категоричними змінними в регресії LASSO зазвичай застосовується згрупована LASSO, яка зберігає фіктивні змінні, що відповідають певній категоріальній змінній разом (тобто ви не можете виключати з моделі лише деякі фіктивні змінні). Корисним методом є модифікована група LASSO (MGL), описана в Choi, Park and Seo (2012) . У цьому способі штраф пропорційний нормі вектора для безлічі фіктивних змінних. Ви все ще зберігаєте довідкову категорію в цьому методі, тому термін перехоплення все ще включається. Це дозволяє працювати з декількома категоричними змінними без проблем з ідентифікацією.β

Відповідаючи на ваші конкретні запитання:

(1) LASSO - це метод оцінки коефіцієнтів, але самі коефіцієнти визначаються початковим модельним рівнянням для вашої регресії. Як таке, інтерпретація коефіцієнтів така ж, як у стандартній лінійній регресії; вони представляють швидкість зміни очікуваної відповіді через зміни пояснювальних змінних.

(2) Вищенаведена література рекомендує групувати змінні, але зберігати довідкову категорію. Це неявно передбачає, що ви порівнюєте наявність категоричної змінної з моделлю, яка її видаляє, але все ще має термін перехоплення.

(3) Як було сказано вище, метод оцінки не впливає на інтерпретацію коефіцієнтів, які встановлюються модельним твердженням.


1
Хатшепсут: Якщо ви вважаєте, що ця відповідь є корисною, то, будь ласка, подумайте про подання заявки та / або прийняття її. Якщо ні, то, можливо, ви могли б вказати, чого ще немає?
С. Коласа - Відновіть Моніку

@StephanKolassa зроблено
Хатшепсут
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.