Як LASSO відбирає серед колінеарних прогнозів?


11

Я шукаю інтуїтивну відповідь, чому модель GLM LASSO вибирає конкретного прогноктора з групи сильно корельованих, і чому це робить інакше, ніж вибір найкращої підмножини.

З геометрії LASSO, показаної на фіг.2 в Tibshirani 1996, я припускаю думку, що LASSO вибирає предиктор з більшою дисперсією.

Тепер припустимо, що я використовую найкращий вибір підмножини з 10-кратним резюме, щоб отримати 2 предиктори для моделі логістичної регресії, і я маю обґрунтовані попередні знання про те, що ці 2 предиктори є оптимальними (у сенсі втрати 0-1).

Рішення LASSO надає перевагу менш парсимонічному (5 предикторів) рішення з більшою помилкою прогнозування. Інтуїтивно, що викликає виникнення різниці? Це через те, як LASSO вибирає серед корельованих прогнозів?

Відповіді:


5

LASSO відрізняється від вибору найкращої підмножини за пеналізацією та залежністю від шляху.

При виборі кращої підмножини, імовірно, CV використовувались для виявлення того, що найкращі показники дають 2 предиктори. Під час резюме, коефіцієнти регресії повної величини без пеналізації будуть використані для оцінки кількості змінних, які слід включити. Після того, як було прийнято рішення про використання 2 предикторів, паралельно було б порівнювати всі комбінації 2 предикторів для повного набору даних, щоб знайти 2 для кінцевої моделі. Цим двом остаточним прогнозникам давали б свої повноцінні коефіцієнти регресії без пеналізації, як ніби вони були єдиним вибором протягом усього часу.

Ви можете подумати про LASSO як про початок з великого штрафу на суму величин коефіцієнтів регресії, при цьому покарання поступово послаблюється. Результат полягає в тому, що змінні вводять по одній, при цьому рішення приймається в кожній точці під час релаксації, чи цінніше збільшити коефіцієнти змінних, які вже є в моделі, або додати іншу змінну. Але коли ви потрапите, скажімо, на 2-змінну модель, коефіцієнти регресії, дозволені LASSO, будуть меншими за величиною, ніж ті самі змінні, які мали б у стандартних не пенізованих регресіях, що використовуються для порівняння 2-змінної та 3-змінної моделей у вибір найкращої підмножини

Це можна вважати таким, що полегшує введення нових змінних у LASSO, ніж у виборі кращих підмножин. Евристично LASSO торгує потенційно меншими від фактичних коефіцієнтів регресії проти невизначеності в тому, скільки змінних слід включити. Це може, як правило, включати більше змінних у модель LASSO та потенційно гіршу ефективність для LASSO, якщо ви точно знали, що потрібно включити лише 2 змінні. Але якби ви вже знали, скільки змінних предиктора повинні бути включені у правильну модель, ви, ймовірно, не використовували б LASSO.

Ніщо до цього часу не залежало від колінеарності, що призводить до різних типів свавілля у виборі змінних у кращому підмножині та LASSO. У цьому прикладі краща підмножина вивчила всі можливі комбінації двох предикторів та обрала найкращу серед цих комбінацій. Тож кращі 2 виграють саме для цього конкретного зразка даних.

LASSO, залежно від шляху додавання однієї змінної за один раз, означає, що ранній вибір однієї змінної може впливати, коли інші змінні, пов'язані з нею, входять пізніше в процесі релаксації. Можливо також, щоб змінна була введена рано, а потім її коефіцієнт LASSO зменшився при введенні інших корельованих змінних.

На практиці вибір між корельованими передбачувачами в кінцевих моделях з будь-яким методом залежить від вибірки, що можна перевірити, повторивши ці процеси побудови моделі на вибірках завантажувальних даних тих самих даних. Якщо передбачувачів не дуже багато, і ваш головний інтерес полягає у прогнозуванні нових наборів даних, кращим вибором може бути регресія хребта, яка має тенденцію утримувати всі прогнози.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.