LASSO для пояснювальних моделей: зменшені параметри чи ні?


9

Я провожу аналіз, де головна мета - зрозуміти дані. Набір даних достатньо великий для перехресної перевірки (10 к), і передбачувачі включають як безперервні, так і фіктивні змінні, а результат - безперервний. Основна мета полягала в тому, щоб зрозуміти, чи є сенс виганяти деякі прогнози, щоб спростити інтерпретацію моделі.

Запитання:

  1. Моє запитання: "які варіанти пояснюють результат та є достатньо сильною частиною цього пояснення". Але для вибору параметра лямбда для lasso, ви використовуєте перехресну перевірку, тобто прогнозовану достовірність як критерій. Чи роблять прогнозну достовірність достатньо хороший проксі для загального питання, яке я задаю?

  2. Скажімо, LASSO зберігав лише 3 з 8 прогнозів. І тепер я запитую себе: "який ефект вони мають на результат". Наприклад, я виявив різницю статі. Після скорочення ласо коефіцієнт говорить про те, що жінки на 1 бал вище, ніж чоловіки. Але без усадки (тобто за фактичним набором даних) вони набирають на 2,5 бала вище.

    • Який із них я б вважав своїм "справжнім" гендерним ефектом? Якщо йти лише за прогнозною обґрунтованістю, це був би коефіцієнт скорочення.
    • Або, в контексті, скажіть, що я пишу звіт для людей, які недостатньо розбираються в статистиці. Який коефіцієнт я б їм повідомив?

1
Яку модель ви дивитесь? Лінійна, логістична, пуассонова тощо модель?
TrynnaDoStat

1
Це лінійна модель, але я не думаю, що це має значення для питання
mbokulic

Відповіді:


7

Якщо ваша мета - точно оцінити параметри вашої моделі, то наскільки ви близькі до справжньої моделі - це як вибрати модель. Прогнозова валідність за допомогою перехресної перевірки - це один із способів зробити це і є кращим спосіб вибору λ в регресії LASSO.

Тепер, щоб відповісти на запитання, яка оцінка параметра є "реальною оцінкою", слід подивитися, який параметр "найближчий" до реального значення параметра. Чи означає "найближчий" оцінки параметрів, що мінімізують зміщення? Якщо так, то оцінювач найменшого квадрата є неупередженим в лінійній регресії. Чи найбільше означає оцінку параметра, яка мінімізує середню квадратичну помилку (MSE)? Тоді може бути показано, що існує специфікація регресії хребта, яка дасть вам оцінки, що мінімізують MSE (подібно до LASSO, регресія хребта зменшує оцінку параметрів до нуля, але, відмінна від LASSO, оцінки параметрів не досягають нуля). Аналогічно, існує кілька специфікацій параметру настройкиλв LASSO, що призведе до меншої MSE, ніж лінійна регресія (див. тут ). Як статистик, ви повинні визначити, що є "найкращою" оцінкою, і повідомити про неї (бажано, з деякою ознакою достовірності оцінки) тим, хто недостатньо добре розбирається в статистиці. Що є "найкращим", це може бути, а може, і не бути упередженою оцінкою.

glmnetФункція R робить дуже хорошу роботу по вибору оптимальних значеньλ і, підсумовуючи, вибір λ за допомогою перехресної перевірки та звітності оцінок параметрів є цілком розумним способом оцінити "реальне" значення параметрів.

Байєсівська модель LASSO, яка вибирається λ за граничною ймовірністю деякі віддають перевагу, але я, можливо, неправильно, припускаю, що ви робите частолістську модель LASSO.


Що ви мали на увазі під "зміщенням" у "оцінках параметрів, що мінімізують зміщення"? І чи читаю я решту правильно, якщо я читаю так: я повинен вибрати модель, яка має найнижчу оцінку MSE у вибірці (тобто в перехресній валідації)? Оскільки хребет не
підлягає

@mbokulic Під упередженням я маю на увазі статистичне зміщення. Це стосується тенденції процесу вимірювання перевищувати / недооцінювати значення параметру сукупності. Моя відповідь говорить, що це залежить від того, що ви хочете. Якщо ви не хочете зміщення, дотримуйтесь лінійної регресії. Якщо ви добре з упередженням і вважаєте за краще мінімізувати MSE, переходьте до LASSO та дотримуйтесь належної ретельності при виборіλ.
TrynnaDoStat

цікаво, я ніколи про це не думав. Знову я повинен запитати, чи я вас правильно зрозумів. Отже, лінійна регресія дає найбільш неупереджену оцінку коефіцієнтів чисельності (приклад "на 2,5 бала вище" в моєму первісному запитанні). Беручи до уваги ласо або хребет регр. мінімізувати незабезпечений вибірку MSE. Якщо так, якщо ви просто хочете зрозуміти (не прогнозувати), лінійна регресія здається кращою, хоча ви все одно хочете спростити модель, наприклад, поетапними методами.
mbokulic

відповіді тут корисні. Вони припускають, що OLS (лінійна регресія) має найвищі показники у вибірці, тоді як ласо - для вибірка. Крім того, вони припускають, що OLS можна використовувати на обмеженому наборі предикторів, вибраних ласо. Саме це має сенс для моєї мети інтерпретації, навіть якщо оцінки OLS трохи перевищують.
mbokulic
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.