Чому R Squared не є хорошим показником для регресії, що підходить за допомогою LASSO?


12

Я читав у кількох місцях, що R Squared не є ідеальним показником, коли модель підходить за допомогою LASSO. Однак мені не ясно, чому саме так.

Крім того, ви могли б порекомендувати найкращу альтернативу?

Відповіді:


19

Метою використання LASSO є отримання розрідженого подання (передбачуваної кількості) у сенсі не має багато коваріатів. Порівняння моделей з як правило, надає перевагу моделям з великою кількістю коваріатів: насправді додавання коваріатів, не пов'язаних з результатом, ніколи не зменшить R 2 і майже завжди збільшує його хоч трохи. Модель LASSO визначить модель з оптимальною пеніалізованою ймовірністю (непеніфікована ймовірність журналу монотонно пов'язана з R 2 ). Статистика валідації, яка ширше використовується для порівняння моделей LASSO з іншими типами моделей, це, наприклад, BIC або перекреслена R 2 .R2R2R2R2


1
+1, щоб чітко представити причину та запропонувати альтернативу
Haitao Du

1
Дуже дякую за чудову відповідь! Не заперечуєте детальніше про те, що "модель LASSO визначить модель з оптимальною пеніалізованою ймовірністю журналу (непеціалізована ймовірність журналу монотонно пов'язана з R2)". Я вважаю, що перша частина означає, що вона вибере модель з найменшою кількістю помилок (передбачення та через пеналізацію)? Але мені незрозуміло, що означає шматочок у дужках. Чи означає це, що неосвоєний LL піднімається, коли R2 знижується? Також, чи має перехрещена R2 бути в абсолютно новому наборі даних? Або це може базуватися на даних про навчання?
Дейв

3
журнал(2π)N+1-журнал(N)+журнал(i=1нri2)1-i=1нri2/i=1нуi2. Штраф сприяє помилкам опосередковано, це ціна, яку ви платите, щоб забезпечити рідкість. У неоперованій моделі завжди буде нижча (внутрішня) помилка. Люди зазвичай роблять перехресну перевірку з одним і тим же набором даних. Тестування моделей у нових наборах даних - це зовсім інша річ (немає необхідності в "перехресній" частині), і вона зроблена недостатньо.
АдамО

@AdamO Я думаю, що було б корисно відредагувати ваш коментар у своїй відповіді, це дуже добре.
Меттью Друрі

Привіт @AdamO Останнє запитання. Зараз я розумію, чому традиційний R2 - це погана міра. Але мені незрозуміло, чому перехресне підтвердження R2 (у межах одного набору даних) добре?
Дейв
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.