Перехресне підтвердження після LASSO у складних даних опитування


11

Я намагаюся зробити вибір моделей на деяких прогнозованих кандидатах, використовуючи LASSO з постійним результатом. Мета полягає у виборі оптимальної моделі з найкращою продуктивністю прогнозування, що зазвичай може бути виконано перехресним перевіркою K-кратного результату після отримання шляху рішення параметрів настройки від LASSO. Проблема тут полягає в тому, що дані походять із складної багатоетапної моделі опитування (NHANES) із кластерною вибіркою та стратифікацією. Частина оцінки не є складною, оскільки glmnetв R можна брати ваги для вибірки. Але частина перехресної перевірки для мене менш зрозуміла, оскільки спостереження зараз вже не є ідентичними, і як процедура може враховувати вибіркові ваги, що представляють кінцеву сукупність?

Отже, мої запитання:

1) Як здійснити перехресну валідацію K-кратного за допомогою складних даних опитування, щоб вибрати оптимальний параметр настройки? Більш конкретно, як належним чином розподілити вибіркові дані на набори для навчання та перевірки? І як визначити оцінку помилки прогнозування?

2) Чи існує альтернативний спосіб вибору оптимального параметра настройки?


Можливо, перекомпонування (наприклад, завантажувальний) буде більш підходящою процедурою замість k fold cv?
g3o2

Лумлі попереджає, що "Теорія для завантажувальної програми була розроблена лише для ситуації вибірки з рівною ймовірністю в межах кожного прошарку, не ясно, наскільки добре вона буде працювати з довільними ймовірностями". (28) Схоже, що дані NHANES не мають вибірки з однаковою вірогідністю у верствах.
Ден Хікс

було б цікаво знати цю маленьку деталь з ОП. Не бачите, що було б таким складним у багатоступеневому кластері та стратифікованій вибірці ...
g3o2

@ Дан Хікс: Я не думаю, що це насправді має значення, коли перекомпонується, ти повторюєш декілька екземплярів точно такого ж зразкового плану.
g3o2

Використовуючи щось на кшталт описаних тут методів? amstat.tandfonline.com/doi/pdf/10.1080/01621459.1988.10478591 (Або щось більш недавнє?) Якщо ви хочете написати цю ідею ще трохи детальніше як відповідь, я дам вам суму.
Ден Хікс

Відповіді:


2

У мене немає детальної відповіді, лише деякі вказівки на роботу я мав на увазі прочитати:

Ви можете подивитися на McConville (2011) у складі комплексного опитування LASSO, щоб переконатися, що використання LASSO відповідає вашим даним. Але, можливо, це не велика справа, якщо ви робите LASSO лише для вибору змінної, а потім підходите до інших змінних.

Для перехресної перевірки зі складними даними опитування (хоча це не LASSO), McConville також цитує Opsomer & Miller (2005) та You (2009). Але їхні методи, здається, використовують рейтинг CV, а не K-кратну.

Випуск один-один повинен бути простішим у здійсненні за допомогою складних опитувань --- менше турбот щодо того, як правильно розподілити дані. (З іншого боку, біг може зайняти більше часу, ніж K-кратно. І якщо ваша мета - вибір моделі, відомо, що для великих зразків випускний може бути гіршим, ніж K-кратний.)


0

EDIT від OP: Не застосовується до складних даних опитування.

Функція cv.glmet може допомогти вам виконати необхідну перехресну перевірку. Значення lambda.min - це значення λ, де похибка CV мінімальна. Lambda.1se представляє значення λ в пошуку, яке було простішим за найкращу модель (lambda.min), але яке має помилку в межах 1 стандартної помилки найкращої моделі.

  1. Виберіть сітку значень, яку ви можете вибрати для альфа та лямбда

сітка <- розгорнути.grid (.alpha = (1:10) * 0,1, .lambda = (1:10) * 0,1)

  1. Налаштуйте параметри управління вашої моделі. Наведене нижче управління поїздом робить повторне відеосигнал протягом 10 ітерацій. Перейдіть до наявних методів і виберіть той, який би відповідав вашому поточному сценарію.

.алpгода,> =Т,ламбга=гriг

Значення lambda.min можна отримати з самої моделі, як показано нижче.

cv.glmmod $ lambda.min


1
Я знаю, як зробити перехресну перевірку даних для iid за допомогою glmnet. Я питав про співвіднесені складні дані опитування.
аніма
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.