Інтуїція до ступенів свободи LASSO


12

Zou та ін. "Про" ступені свободи "ласо" (2007) показують, що кількість ненульових коефіцієнтів є неупередженою і послідовною оцінкою ступенів свободи ласо.

Мені це здається трохи протизаконним.

  • Припустимо, ми маємо регресійну модель (де значення змінних дорівнюють нулю)

y=βx+ε.
  • Припустимо, необмежена оцінка OLS становить . Це може приблизно збігатися з оцінкою LASSO для дуже низької інтенсивності штрафу.& beta ; O L S = 0,5 & beta ;ββ^OLS=0.5β
  • Припустимо також, що оцінка LASSO для певної інтенсивності штрафу є . Наприклад, може бути "оптимальним" для набору даних, знайдених за допомогою перехресної перевірки. * β L S S O , λ * = 0,4 λ * λλβ^LASSO,λ=0.4λλ
  • Якщо я правильно розумію, в обох випадках ступінь свободи дорівнює 1, оскільки обидва рази є один ненульовий коефіцієнт регресії.

Питання:

  • Чому ступеня свободи в обох випадках однакова, навіть якщо припускає менше "свободи" в примірці, ніж ? β OLS=0,5β^LASSO,λ=0.4β^OLS=0.5

Список літератури:


1
велике запитання, що заслуговувало б на більшу увагу!
Матифу

Відповіді:


8

Припустимо, нам дано набір -вимірних спостережень, , . Припустимо модель форми: where , , і що позначає внутрішній продукт. Нехай є оцінкою використовуючи придатний метод (або OLS, або LASSO для наших цілей). Формула ступенів свободи, наведена у статті (рівняння 1.2), така: р х яR р я = 1 , ... , п У я = & beta ; , х я+ & epsi ; & epsi ; ~ N ( 0 , σ 2 ) & beta ; R р, & beta ; = δ ( { Y i } n i = 1 ) β δ df (n pxiRpi=1,,n

Yi=β,xi+ϵ
ϵN(0,σ2)βRp,β^=δ({Yi}i=1n)βδ
df(β^)=i=1nCov(β^,xi,Yi)σ2.

Перевіряючи цю формулу, можна припустити, що відповідно до вашої інтуїції справжній DOF для LASSO дійсно буде меншим, ніж справжній DOF з OLS; коефіцієнт усадки, здійснений LASSO, повинен мати тенденцію до зниження коваріацій.

Тепер, щоб відповісти на ваше запитання, причина того, що DOF для LASSO є такою ж, як DOF для OLS у вашому прикладі, полягає лише в тому, що ви маєте справу з оцінками (хоча і неупередженими), отриманими з конкретного набору даних, відібраного з моделі. справжніх значень DOF. Для будь-якого конкретного набору даних така оцінка не буде дорівнювати істинному значенню (тим більше, що оцінка повинна бути цілим числом, тоді як справжнє значення в цілому є реальним числом).

Однак, коли такі оцінки усереднюються за багатьма наборами даних, відібраними з моделі, за неупередженості та закону великих чисел така середня величина буде сходити до справжнього DOF. У випадку LASSO деякі з цих наборів даних приводять до оцінки, де коефіцієнт насправді дорівнює 0 (хоча такі набори даних можуть бути рідкісними, якщо невеликий). У випадку з OLS оцінка DOF - це завжди кількість коефіцієнтів, а не кількість ненульових коефіцієнтів, і тому середнє значення для випадку OLS не містить цих нулів. Це показує, як оцінювачі відрізняються, і як середній оцінювач для LASSO DOF може сходитися до чогось меншого, ніж середній оцінювач для OLS DOF.λ


1
Дякую за виправлення моїх помилок та неточних формулювань. Дозвольте мені побачити, чи я вас добре зрозумів. По суті, якби ми повторювали експеримент багато разів (або вибирали багато разів з однієї сукупності), ми періодично отримували б (коефіцієнт зменшився б до нуля) і в середньому (через експерименти) я отримав би DoF для LASSO тоді як DoF для OLS (очевидно). <1=1β^LASSO=0<1=1
Річард Харді

До речі, чому для оцінки ступеня свободи потрібно бути цілим? Це справді? Дозвольте також зауважити, що внутрішні позначення продукту видаються надмірно складними і їх рідко використовують на цьому веб-сайті; матричного позначення буде достатньо. Але це ваш вибір, звичайно.
Річард Харді

1
Так, про підсумки. Оцінка ступенів свободи має бути цілим числом для LASSO (принаймні, для одного набору даних) лише тому, що оцінка - кількість ненульових коефіцієнтів.
e2crawfo

1
Твердження Оцінка ступенів свободи має бути цілим числом для LASSO лише тому, що оцінка - кількість ненульових коефіцієнтів, здається мені дуже тавтологічною. Взагалі, я не думаю, що df має бути цілим, із самого визначення df, яке ви написали. Аналогічно, у випадку хребта він не обов'язково дорівнює нулю.
Матифу
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.