[Аналогічне питання було поставлене тут , без відповідей]
Мені підходить модель логістичної регресії з регуляризацією L1 (логістична регресія Лассо), і я хотів би перевірити встановлені коефіцієнти на значущість та отримати їхні p-значення. Я знаю, що тести Уолда (наприклад) - це можливість перевірити значущість окремих коефіцієнтів у повній регресії без регуляризації, але з Лассо я думаю, що виникають додаткові проблеми, які не дозволяють застосовувати звичайні формули Вальда. Наприклад, оцінки дисперсії, внесені до тесту, не відповідають звичайним виразам. Оригінальний папір Лассо
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
пропонує процедуру на основі завантажувальної програми для оцінки відхилення коефіцієнтів, яка (знову-таки, я думаю) може знадобитися для тестів (розділ 2.5, останній абзац сторінки 272 і початок 273):
Один із підходів здійснюється через завантажувальну стрічку: або може бути виправлена, або ми можемо оптимізувати більше t для кожного зразка завантажувальної програми. Виправлення t є аналогічним вибору найкращої підмножини ( функцій ), а потім використання стандартної помилки квадратів для цього підмножини
Що я розумію, це: кілька разів прилаштовувати регресію Лассо до всього набору даних, поки ми не знайдемо оптимальне значення для параметра регуляризації (це не є частиною завантажувальної програми), а потім використовувати лише функції, вибрані Lasso для пристосування регресій OLS до підпробових даних і застосувати звичайні формули для обчислення відхилень від кожної з цих регресій. (І що тоді робити з усіма цими дисперсіями кожного коефіцієнта, щоб отримати остаточну оцінку дисперсії кожного коефіцієнта?)
Крім того, чи правильно використовувати звичайні тести на значущість (наприклад, тест Вальда, який використовує розрахункові бета та відхилення) з оцінкою коефіцієнтів Лассо та відхиленнями завантажувальної версії? Я впевнений, що це не так, але будь-яка допомога (використання іншого тесту, використання більш прямого підходу, whaterever ...) більш ніж вітається.
Відповідно до відповідей тут, я підозрюю, що висновки та p-значення просто неможливо отримати. У моєму випадку значення р є зовнішньою вимогою (хоча використання регуляризації L1 було моїм вибором).
Дуже дякую
EDIT Що робити, якщо я підходить до логістичної регресії OLS, використовуючи лише змінні, вибрані попереднім циклом логістичної регресії Лассо? Мабуть (див. Тут ),
Не потрібно запускати модель ще раз після крос-валідації (ви просто отримуєте коефіцієнти з виводу cv.glmnet), і якщо ви підходите до нової логістичної регресійної моделі без штрафних санкцій, ви перемагаєте мету використання ласо
Але що робити, якщо я це роблю з єдиною метою - можливість обчислити р-значення, зберігаючи число змінних низьким? Це дуже брудний підхід? :-)