Як інтерпретувати результати, коли і гребінець, і ласо окремо працюють добре, але дають різні коефіцієнти


11

Я запускаю регресійну модель як з Лассо, так і з Ріджем (для прогнозу дискретної змінної результату в межах від 0 до 5). Перш ніж запустити модель, я використовую SelectKBestметод scikit-learnзменшення набору функцій з 250 до 25 . Без початкового вибору особливостей і Лассо, і Рідж поступаються нижчим показникам точності [що може бути пов'язано з малим розміром вибірки, 600]. Також зауважте, що деякі функції співвідносяться.

Після запуску моделі я зауважую, що точність прогнозування майже однакова з Лассо та Ріджем. Однак, коли я перевіряю перші 10 функцій, після того як упорядковувати їх за абсолютним значенням коефіцієнтів, я бачу, що існує не більше% 50 перекриття.

Тобто, враховуючи, що різні значення особливостей присвоювали кожному методу, я можу мати зовсім іншу інтерпретацію, засновану на обраній вами моделі.

Зазвичай функції відображають деякі аспекти поведінки користувачів на веб-сайті. Тому я хочу пояснити результати, підкреслюючи особливості (поведінку користувачів) з більш сильною прогностичною здатністю та слабшими рисами (поведінка користувача). Однак я не знаю, як рухатись вперед у цей момент. Як слід підходити до інтерпретації моделі? Наприклад, чи слід поєднувати обидва і підкреслювати один, що перекривається, або я повинен перейти з Лассо, оскільки це забезпечує більшу інтерпретацію?


3
(+1) Регуляризація може розглядатися як погіршення оцінок окремих коефіцієнтів, одночасно покращуючи їх колективну ефективність при прогнозуванні нових відповідей. Чого саме ви намагаєтесь досягти своєю інтерпретацією?
Scortchi

1
Дякую @Scortchi за відгук. Я додав цеNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK, співвідношення між коефіцієнтами хребта та лямбда не повинно бути одноманітним, тоді як у ласо є. Таким чином, при певних рівнях усадки абсолютне значення коефіцієнтів у хребті та ласо може сильно відрізнятися. Сказавши це, я би вдячний, якщо хтось може накреслити доказ цього чи коротко пояснити це математично
Łukasz Grad

Переконайтесь, що ви сортуєте коефіцієнти "бета". Дивіться stats.stackexchange.com/a/243439/70282 Ви можете отримати їх, навчившись стандартизованим змінним або скоригувавшись пізніше, як описано у посиланні.
Кріс-

1
@ ŁukaszGrad LASSO коефіцієнти не повинні бути монотонними функціями якщо предиктори корелюють; див. для прикладу рисунок 6.6 ISLR . λ
EdM

Відповіді:


7

Регресія хребта спонукає всі коефіцієнти стати малими. Лассо закликає багато / більшість [**] коефіцієнтів стати нульовими, а кілька - ненульовими. Обидва вони знизять точність на тренувальному наборі, але покращать прогнозування певним чином:

  • регресія хребта намагається покращити узагальнення до тестового набору за рахунок зменшення надмірного набору
  • lasso зменшить кількість ненульових коефіцієнтів, навіть якщо це покарає результативність як на навчальних, так і на тестових наборах

Ви можете отримати різні варіанти коефіцієнтів, якщо ваші дані сильно співвідносяться. Отже, у вас може бути 5 функцій, які співвідносяться:

  • присвоївши малі, але ненульові коефіцієнти всім цим характеристикам, регресія хребта може домогтися низьких втрат на тренувальному наборі, що може бути правдоподібним для генерації тестового набору
  • lasso може вибрати лише одну з них, що добре співвідноситься з іншими чотирма. і немає ніяких причин, чому він повинен вибирати функцію з найвищим коефіцієнтом у версії регресної гребені

[*] для визначення значення "вибрати": призначає ненульовий коефіцієнт, який все ще трохи розмахує рукою, оскільки коефіцієнти регресії хребта, як правило, не будуть нульовими, але, наприклад, деякі можуть бути як 1e-8 , а інші можуть бути, наприклад, 0,01

[**] нюанс: як зазначає Річард Харді, для деяких випадків використання може бути вибрано значення що призведе до того, що всі коефіцієнти LASSO будуть не нульовими, але з деякою усадкоюλ


Гарні пропозиції. Хороший перевірка - зробити кореляційну матрицю. Змінні, що не перетинаються, можуть бути сильно корельованими.
Кріс

3
Хороша відповідь! Однак я не впевнений, що справедливо припускати, що гребінь універсально намагається покращити тестові показники, не кажучи про те, що стосується lasso. Наприклад, якщо справжня модель є рідкою (і в підмножині наших прогнокторів), ми можемо відразу очікувати, що ласо матиме кращі тестові показники, ніж хребет
user795305

Це принцип "ставки на ощадливість". Наприклад, дивись перший сюжет тут: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
Порівняння змінних варіантів вибору (LASSO) та коефіцієнтів регресії серед кількох зразків завантажувальних даних може чудово проілюструвати ці проблеми. З корельованими передбачувачами, вибрані LASSO з різних завантажувальних рядів можуть бути абсолютно різними, все ще забезпечуючи аналогічні показники прогнозування. В ідеалі весь процес створення моделі, включаючи початкове зменшення набору функцій, повинен повторюватися на декількох завантажувальних майданчиках, щоб документувати якість процесу.
EdM

вибираючи 4 з цих ознак, з низькими коефіцієнтами або навіть усіма ними, знову ж таки з малими, але ненульовими коефіцієнтами, регресія хребта може знизити втрати на навчальному наборі - регресія хребта не вибирає змінних. Крім того, для низьких значень , lasso обиратиме всі змінні, але зробить деяку усадку, як і хребет. λ
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.