Я провожу аналіз, де головна мета - зрозуміти дані. Набір даних достатньо великий для перехресної перевірки (10 к), і передбачувачі включають як безперервні, так і фіктивні змінні, а результат - безперервний. Основна мета полягала в тому, щоб зрозуміти, чи є сенс виганяти деякі прогнози, щоб спростити інтерпретацію моделі.
Запитання:
Моє запитання: "які варіанти пояснюють результат та є достатньо сильною частиною цього пояснення". Але для вибору параметра лямбда для lasso, ви використовуєте перехресну перевірку, тобто прогнозовану достовірність як критерій. Чи роблять прогнозну достовірність достатньо хороший проксі для загального питання, яке я задаю?
Скажімо, LASSO зберігав лише 3 з 8 прогнозів. І тепер я запитую себе: "який ефект вони мають на результат". Наприклад, я виявив різницю статі. Після скорочення ласо коефіцієнт говорить про те, що жінки на 1 бал вище, ніж чоловіки. Але без усадки (тобто за фактичним набором даних) вони набирають на 2,5 бала вище.
- Який із них я б вважав своїм "справжнім" гендерним ефектом? Якщо йти лише за прогнозною обґрунтованістю, це був би коефіцієнт скорочення.
- Або, в контексті, скажіть, що я пишу звіт для людей, які недостатньо розбираються в статистиці. Який коефіцієнт я б їм повідомив?