Тестування на значення коефіцієнтів у логістичній регресії Лассо


10

[Аналогічне питання було поставлене тут , без відповідей]

Мені підходить модель логістичної регресії з регуляризацією L1 (логістична регресія Лассо), і я хотів би перевірити встановлені коефіцієнти на значущість та отримати їхні p-значення. Я знаю, що тести Уолда (наприклад) - це можливість перевірити значущість окремих коефіцієнтів у повній регресії без регуляризації, але з Лассо я думаю, що виникають додаткові проблеми, які не дозволяють застосовувати звичайні формули Вальда. Наприклад, оцінки дисперсії, внесені до тесту, не відповідають звичайним виразам. Оригінальний папір Лассо

http://statweb.stanford.edu/~tibs/lasso/lasso.pdf

пропонує процедуру на основі завантажувальної програми для оцінки відхилення коефіцієнтів, яка (знову-таки, я думаю) може знадобитися для тестів (розділ 2.5, останній абзац сторінки 272 і початок 273):

Один із підходів здійснюється через завантажувальну стрічку: або може бути виправлена, або ми можемо оптимізувати більше t для кожного зразка завантажувальної програми. Виправлення t є аналогічним вибору найкращої підмножини ( функцій ), а потім використання стандартної помилки квадратів для цього підмножиниттт

Що я розумію, це: кілька разів прилаштовувати регресію Лассо до всього набору даних, поки ми не знайдемо оптимальне значення для параметра регуляризації (це не є частиною завантажувальної програми), а потім використовувати лише функції, вибрані Lasso для пристосування регресій OLS до підпробових даних і застосувати звичайні формули для обчислення відхилень від кожної з цих регресій. (І що тоді робити з усіма цими дисперсіями кожного коефіцієнта, щоб отримати остаточну оцінку дисперсії кожного коефіцієнта?)

Крім того, чи правильно використовувати звичайні тести на значущість (наприклад, тест Вальда, який використовує розрахункові бета та відхилення) з оцінкою коефіцієнтів Лассо та відхиленнями завантажувальної версії? Я впевнений, що це не так, але будь-яка допомога (використання іншого тесту, використання більш прямого підходу, whaterever ...) більш ніж вітається.

Відповідно до відповідей тут, я підозрюю, що висновки та p-значення просто неможливо отримати. У моєму випадку значення р є зовнішньою вимогою (хоча використання регуляризації L1 було моїм вибором).

Дуже дякую

EDIT Що робити, якщо я підходить до логістичної регресії OLS, використовуючи лише змінні, вибрані попереднім циклом логістичної регресії Лассо? Мабуть (див. Тут ),

Не потрібно запускати модель ще раз після крос-валідації (ви просто отримуєте коефіцієнти з виводу cv.glmnet), і якщо ви підходите до нової логістичної регресійної моделі без штрафних санкцій, ви перемагаєте мету використання ласо

Але що робити, якщо я це роблю з єдиною метою - можливість обчислити р-значення, зберігаючи число змінних низьким? Це дуже брудний підхід? :-)


Щоб зробити висновок для моделей LASSO, ви також можете перевірити пакет CRAN hdi, який надає висновок для високомірних моделей, ви можете поглянути на це ...
Том Венселер

Повні методи добре описані в цьому документі: projecteuclid.org/euclid.ss/1449670857
Tom Wenseleers

А ще є пакет cran.r-project.org/web/packages/selectiveInference/index.html, який може бути корисним для надання висновку для LASSO ...
Том Вензелерс

Це гарне і важливе питання, яке потрібно задати.
Jinhua Wang

Відповіді:


5

Проблема використання звичайних тестів на значущість полягає в тому, що вони припускають нуль, тобто існують випадкові змінні, що не мають зв'язку із змінними результатів. Однак те, що у вас є з ласо, - це купа випадкових змінних, з яких ви вибираєте найкращі з ласо, також бета зменшуються. Тому ви не можете його використовувати, результати будуть упередженими.

Наскільки я знаю, завантажувальний пристрій використовується не для оцінки варіації дисперсії, а для отримання ймовірностей вибору змінної. І це ваші р-значення. Перевірте безкоштовну книгу Хасі, "Статистичне навчання з рідкістю", глава 6 - це те саме. http://web.stanford.edu/~hastie/StatLearnSparsity/

Також перевірте цей документ, щоб знайти інші способи отримання p-значень з ласо https://arxiv.org/pdf/1408.4026.pdf Можливо, ще більше


4

н

На щастя, останніми роками було досягнуто значного прогресу в розробці методів висновку, які враховують поствідбір. Деякі відповідні посилання на вашу справу: http://projecteuclid.org/euclid.aos/1460381681 та, https://arxiv.org/pdf/1602.07358.pdf . Методи, що обговорюються в цих посиланнях, реалізовані в пакеті R-селективнихІнференцій- https://cran.r-project.org/web/packages/selectiveInference/index.html . Пакет selectiveInference повинен створити потрібні довірчі інтервали, які вам потрібні.


1
У спеціалізації машинного навчання у курсі Універ. Вашингтона, викладачі курсу 2 (Регресія) цілий тиждень присвятили регресії Лассо. В одному із слайдів описана нами процедура (за допомогою Лассо для вибору функцій, а потім пристосування регресії LS лише до цих змінних) позначається дебільно і вважається правильною і проілюстрована графіками з паперу Маріо Фігейредо. Перегляньте слайд 105 тут: github.com/MaxPoon/coursera-Machine-Learning-specialization/…
Пабло

Хоча вони рекомендують скасувати ласо, вони взагалі не обговорюють тестування гіпотез. Крім того, термін зняття збитків вводить в оману, оскільки, переоблаштовуючи модель, позбавляється від упередженого зменшення, спричиненого ласо, це не допомагає упередженому зміщенню, викликаному прокляттям переможця. Наскільки мені відомо, єдиний спосіб по-справжньому зменшити зміщення оцінок коефіцієнта регресії обраної моделі - це обчислити умовні максимальні оцінки ймовірності. arxiv.org/abs/1705.09417
користувач3903581
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.