Використання регуляризації під час статистичного висновку


18

Я знаю про переваги регуляризації при побудові прогнозних моделей (зміщення проти дисперсійності, запобігання надмірного розміщення). Але мені цікаво, чи гарна ідея також робити регуляризацію (ласо, хребет, еластична сітка), коли основною метою регресійної моделі є висновок про коефіцієнти (бачити, які прогноктори є статистично значущими). Я хотів би почути думки людей, а також посилання на будь-які академічні журнали чи неакадемічні статті, що стосуються цього.


4
Регуляризація може бути помічена байєсовими очима, ласо, наприклад, відповідає деякому подвійному експоненціальному попередньому (зі шкалою, обраною шляхом перехресної валідації). Тож одна з можливостей - пройти повний байес.
kjetil b halvorsen

1
Визначення того, які прогноктори є ненульовими, це те, про що йдеться у ласо! Якщо ви хочете визначити, які статистично суттєво відрізняються від нуля, вкрай варто розглянути такі методи, як
lasso

Відповіді:


8

Термін "регуляризація" охоплює дуже широке різноманіття методів. Для цілей цієї відповіді я збираюся звузити значення "пенізована оптимізація", тобто додавання штрафу або L 2 до вашої проблеми з оптимізацією.L1L2

Якщо це так, то відповідь - остаточний "Так! Добре".

Причиною цього є те, що додавання L1 штрафу або до функції ймовірності призводить до точно такої ж математичної функції, як додавання або Лапласа, або Гаусса до того, як існує ймовірність отримати задній розподіл (крок елеватора: попередній розподіл описує невизначеність параметрів перед переглядом даних, задній розподіл описує невизначеність параметрів після перегляду даних), що призводить до байєсівської статистики 101. Байєсівська статистика дуже популярна і виконується весь час з метою встановлення оцінюваних ефектів.L2

Це було "Так!" частина. "Добре щось" полягає в тому, що оптимізація вашого заднього розподілу проводиться і називається "Максимум A Posterior" (MAP). Але більшість байесівських не використовують оцінку MAP, вони вибирають із заднього розподілу за допомогою алгоритмів MCMC! Це має ряд переваг, один з яких полягає в тому, що він має менший зміщення вниз у компонентах дисперсії.

Для стислості я намагався не вникати в деталі про байєсівську статистику, але якщо це вас зацікавило, саме тут можна почати шукати.


2
(+1) Але якщо я використовував ці пріори лише тому, що вони дають хороші прогнози - я, можливо, цілком можу їх настроїти для цієї мети - то що я маю робити з оцінок ПДЧ або заднього розподілу? (Звичайно, якщо я попросив пріорів представити знання про параметри перед тим, як побачити дані, я точно знаю, що з них зробити.)
Scortchi - Reinstate Monica

1
@Scortchi: це дуже хороший момент: використання перехресної перевірки для вибору штрафних санкцій виводить вас із класичної байєсівської системи (наскільки я знаю). Побудова моделі з CV для вибору параметрів регуляризації не збігається з цією відповіддю, але використання регуляризації з фіксованими штрафами, обраної на основі інформації експерта.
Cliff AB

2
Слово застереження: Попередній + підхід MCMC дасть вагомі результати лише в тому випадку, якщо плакати для всіх потенційних коефіцієнтів будуть вивчені та повідомлені. В іншому випадку ми знаходимося в селективному налаштуванні висновку, і більшість методів наївного висновку буде недійсним.
user3903581

1
(+1) Гарна відповідь! Однак я думаю, що варто уточнити речення "Але більшість байесовських не використовують оцінку MAP, вони беруть вибірку із заднього розподілу за допомогою алгоритмів MCMC!" Схоже, ви намагаєтеся сказати, що більшість байєсів використовують повну задню частину при виборі оцінювача. Щоб побачити проблему, зауважте, що оцінка для ПДЧ може бути зроблена з вибірки для заднього розподілу.
користувач795305

8

Існує велика різниця між виконанням оцінки з використанням штрафних пенальті та ласових пенальті. Оцінювачі типу хребта, як правило, зменшують всі коефіцієнти регресії до нуля і є упередженими, але мають легко асимптотичний розподіл, оскільки вони не зменшують жодну змінну до нуля. Зміщення в оцінках хребта може бути проблематичним при подальшому тестуванні гіпотез, але я не є експертом з цього питання. З іншого боку, штрафні санкції типу Лассо / еластична сітка скорочують багато коефіцієнтів регресії до нуля і тому можуть розглядатися як методи вибору моделі. Проблема виконання висновку на моделях, обраних на основі даних, зазвичай називається проблемою вибіркового висновку або висновком після вибору. У цій галузі за останні роки спостерігається багато подій.

уN(мк,1)мкмк|у|>c>0cуcу більше не нормальна, а усічена норма.

Аналогічно, Лассо (або еластична сітка) обмежує пробний простір таким чином, щоб забезпечити вибраність обраної моделі. Це усічення складніше, але його можна описати аналітично.

Виходячи з цього розуміння, можна зробити висновок на основі усіченого розподілу даних, щоб отримати дійсну тестову статистику. Про довірчі інтервали та тестову статистику дивіться роботу Лі та ін .: Http://projecteuclid.org/euclid.aos/1460381681

Їх методи реалізовані в пакеті R- вибірки .

Оптимальна оцінка (і тестування) після вибору моделі обговорюється в (для ласо): https://arxiv.org/abs/1705.09417

та їх (набагато менш комплексний) програмний пакет доступний на веб-сайті : https://github.com/ammeir2/selectiveMLE


4

Я б особливо рекомендував LASSO, якщо ви намагаєтесь використовувати регресію для висновку, засновану на тому, "які прогноктори є статистично значущими", але не з тієї причини, яку ви могли б очікувати.

На практиці прогнози в моделі, як правило, співвідносяться. Навіть якщо не існує суттєвої мультиколінеарності, вибір регресії "значущих" предикторів серед набору корельованих предикторів може суттєво відрізнятися від вибірки до вибірки.

Так що так, продовжуйте і робіть LASSO для вашого регресу. Потім повторіть повний процес побудови моделі (включаючи перехресну перевірку для вибору штрафу LASSO) на декількох зразках завантажувальної програми (кілька сотень або більше) з вихідних даних. Подивіться, наскільки мінливим може бути набір "значущих" предикторів, вибраних таким чином.

Якщо ваші прогнози не є ортогональними один для одного, цей процес повинен змусити вас задуматися про інтерпретацію р-значень у регресії, з точки зору того, що окремі предиктори мають "суттєве значення".


1
+1 Я згоден з усім написаним, дуже прагматичною відповіддю, але чому б не використовувати еластичну сітку замість LASSO? (з огляду на це також згадується ОП) Регуляризація хребта контролюватиме кореляцію між предикторами дещо помітніше.
usεr11852 повідомляє Відновити Моніку

Насправді можливо обчислити дійсні значення p, оцінки та довірчі інтервали в моделях, вибраних за допомогою еластичної сітки ласо АБО, просто потрібно зробити правильно.
user3903581

@ user3903581 Я не заперечую, що можна отримати дійсні частотистські p-значення LASSO, в тому сенсі, що справжня нульова гіпотеза призведе до такого великого коефіцієнта, меншого, ніж, скажімо, 5% повторних зразків. Проблема полягає у надто частих спробах приписувати причинно-наслідкові умовиводи тільки передбачувачам, таким чином, вважаючись "значущими", не враховуючи питань, порушених корельованими провісниками.
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.