Кілька днів тому виникло подібне запитання, на яке було відповідне посилання:
- Belloni, A., Chernozhukov, V., and Hansen, C. (2014) "Висновок щодо ефектів лікування після відбору серед високомірних контролів", Огляд економічних досліджень, 81 (2), с. 608-50 ( посилання )
Принаймні, для мене документ є досить важким, тому що докази цього відносно простого є досить детальними. Коли ви зацікавлені в оцінці такої моделі, як
уi= α Ti+ X'iβ+ ϵi
де - ваш результат, - це певний ефект, що цікавить лікування, а - вектор потенційного контролю. Цільовим параметром є . Припускаючи, що більшість варіацій результату пояснюється лікуванням та рідкісним набором контролю, Belloni et al. (2014) розробити подвійний надійний метод вибору, який забезпечує правильні оцінки балів та допустимі інтервали довіри. Це припущення про обмеженість є важливим.T i X i αуiTiXiα
Якщо включає кілька важливих предикторів але ви не знаєте, що вони є (або окремі змінні, їх поліноми вищого порядку, або взаємодія з іншими змінними), ви можете виконати процедуру вибору трьох кроків:y iXiyi
- регресуйте на , їх квадрати та взаємодії та виберіть важливі предиктори за допомогою LASSOX iyiXi
- регресуйте на , їх квадрати та взаємодії та виберіть важливі предиктори за допомогою LASSOX iTiXi
- регресують на та всі змінні, які були обрані в будь-якому з перших двох етапівT iyiTi
Вони дають докази того, чому це працює, і чому ви отримуєте правильні інтервали довіри тощо від цього методу. Вони також показують, що якщо ви виконаєте лише вибір LASSO на вищезгаданій регресії, а потім регресуєте результат лікування та вибраних змінних, ви отримаєте неправильні оцінки балів та помилкові інтервали довіри, як уже сказав Бьорн.
Метою цього є подвійне: порівняння вашої початкової моделі, де вибір змінних керувався інтуїцією чи теорією, з подвійною надійною моделлю вибору дає уявлення про те, наскільки хороша ваша перша модель. Можливо, ваша перша модель забула деякі важливі умови квадрату чи взаємодії, і, таким чином, страждає від неправильно визначеної функціональної форми або пропущених змінних. По-друге, Belloni та ін. (2014) метод може покращити висновок про ваш цільовий параметр, оскільки надлишкові регресори були покарані за їхню процедуру.