Я намагаюся зробити вибір моделей на деяких прогнозованих кандидатах, використовуючи LASSO з постійним результатом. Мета полягає у виборі оптимальної моделі з найкращою продуктивністю прогнозування, що зазвичай може бути виконано перехресним перевіркою K-кратного результату після отримання шляху рішення параметрів настройки від LASSO. Проблема тут полягає в тому, що дані походять із складної багатоетапної моделі опитування (NHANES) із кластерною вибіркою та стратифікацією. Частина оцінки не є складною, оскільки glmnet
в R можна брати ваги для вибірки. Але частина перехресної перевірки для мене менш зрозуміла, оскільки спостереження зараз вже не є ідентичними, і як процедура може враховувати вибіркові ваги, що представляють кінцеву сукупність?
Отже, мої запитання:
1) Як здійснити перехресну валідацію K-кратного за допомогою складних даних опитування, щоб вибрати оптимальний параметр настройки? Більш конкретно, як належним чином розподілити вибіркові дані на набори для навчання та перевірки? І як визначити оцінку помилки прогнозування?
2) Чи існує альтернативний спосіб вибору оптимального параметра настройки?