Пеніалізовані методи категоричних даних: поєднання рівнів у факторі


10

Пеналізовані моделі можна використовувати для оцінки моделей, де кількість параметрів дорівнює або навіть перевищує розмір вибірки. Така ситуація може виникнути в лінійних журнальних моделях великих розріджених таблиць категоричних даних або даних про кількість. У цих налаштуваннях часто також бажано або корисно згортання таблиць шляхом комбінування рівнів фактора, коли ці рівні не відрізняються з точки зору того, як вони взаємодіють з іншими факторами. Два питання:

  1. Чи існує спосіб використання покараних моделей, таких як LASSO або еластична сітка, для перевірки на збірність рівнів у кожному факторі?
  2. Якщо відповідь на перше запитання - так, чи можна, чи слід, це встановлювати таким чином, що згортання рівнів та оцінка модельних коефіцієнтів відбувається за один крок?

1
Цей документ, doi.org/10.1177/1471082X16642560 , дає хороший огляд того, що було зроблено в цій галузі за останнє десятиліття.
Джорн Біклер

1
Примітка: штраф, який я обговорюю нижче, - рівняння 3,4 за посиланням @JorneBiccler. (Цікаво побачити, що це питання було розглянуто і раніше!)
user795305


Як ми можемо назвати це дублікатом питання, яке передувало йому?
Майкл Р. Черник

Відповіді:


4

Можливо. Для цього ми можемо використовувати варіант сплавленого ласо .

Ми можемо використовувати оцінювач

β^=argminβ1ni=1n(yiβTxieβTxi)+factors gλg(jg|βj|+12j,kg|βjβk|).

Зауважте, що є функцією втрати для лінійного журналу моделей.1ni=1n(yiβTxieβTxi)

Це заохочує коефіцієнти всередині групи бути рівними. Ця рівність коефіцієнтів рівносильна згортанню рівнів та фактора разом. У випадку, коли , це рівносильно згортанню рівня з еталонним рівнем. Параметри настройки можна трактувати як постійні, але це, якщо є лише кілька факторів, було б краще розглянути їх як окремі.jthkthβ^j=0jthλg

Оцінювач є мінімізатором опуклої функції, тому його можна ефективно обчислити за допомогою довільних розв'язувачів. Цілком можливо, що якщо фактор має багато, багато рівнів, ці парні відмінності вийдуть з рук --- в цьому випадку, знаючи більше структури про можливі структури колапсу, буде потрібно.

Зауважте, що все це здійснюється за один крок! Це частина того, що робить оцінювачі типу "ласо" настільки крутими!


Ще один цікавий підхід - використовувати оцінювач OSCAR, який, як і вище, крім штрафу замінюється на .[11][βiβj]1[βiβj]

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.