Чому працює усадка?


55

Для вирішення проблем вибору моделі ряд методів (LASSO, регресія хребта тощо) зменшить коефіцієнти змінних прогнозів до нуля. Я шукаю інтуїтивне пояснення, чому це покращує здатність прогнозування. Якщо справжній ефект змінної насправді був дуже великим, чому не зменшення параметра призводить до гіршого прогнозу?

Відповіді:


48

Грубо кажучи, є три різні джерела помилки прогнозування:

  1. упередженість вашої моделі
  2. дисперсія вашої моделі
  3. незрозуміла дисперсія

Ми не можемо нічого зробити з точки 3 (за винятком спроб оцінити незрозумілу дисперсію та включити її в наші прогнозні щільності та інтервали прогнозування). Це залишає нас з 1 і 2.

Якщо ви насправді маєте "правильну" модель, то, скажімо, оцінки параметрів OLS будуть неупередженими та матимуть мінімальну різницю серед усіх неупереджених (лінійних) оцінювачів (вони СУНІ). Прогнози від моделі OLS будуть найкращими лінійними неупередженими прогнозами (BLUP). Це звучить непогано.

Однак виявляється, що хоча у нас є неупереджені прогнози і мінімальна дисперсія серед усіх неупереджених прогнозів, дисперсія все ще може бути досить великою. Що ще важливіше, ми можемо іноді ввести "невеликий" ухил і одночасно заощадити "багато" дисперсії - і, отримавши компроміс правильно, ми можемо отримати меншу помилку прогнозування з упередженою (нижчою дисперсією) моделлю, ніж з неупередженою ( вища дисперсія) одна. Це називається "компроміс-дисперсія зміщення", і це питання та його відповіді є просвітливими: Коли упереджений оцінювач кращий перед неупередженим?

І саме регуляризація, як ласо, регресія хребта, еластична сітка і так далі, роблять саме це. Вони тягнуть модель до нуля. (Байєсівські підходи схожі - вони тягнуть модель до пріорів.) Таким чином, регуляризовані моделі будуть упередженими порівняно з нерегульованими моделями, але також матимуть меншу дисперсію. Якщо ви виберете своє регуляризаційне право, результат - прогнозування з меншою помилкою.

Якщо ви шукаєте "регуляризацію компромісних змін" або подібне, ви отримуєте трохи їжі для роздумів. Наприклад, ця презентація корисна.

EDIT: Амеба цілком справедливо вказує, що я маю рукоділля щодо того, чому саме регуляризація дає меншу дисперсію моделей та прогнозів. Розглянемо модель ласо з великим параметром регуляризації . Якщо , ваші оцінки параметрів ласо будуть зменшені до нуля. Фіксоване значення нуля має нульову дисперсію. (Це не зовсім правильно, оскільки порогове значення за яким ваші параметри будуть зменшені до нуля, залежить від ваших даних та вашої моделі. Але, враховуючи модель та дані, ви можете знайтиλλλλтакий, що модель - нульова модель. Завжди тримайте свої квантори прямо.) Однак, нульова модель, звичайно, також має гігантський ухил. Зрештою, це не хвилює фактичних спостережень.

І те ж саме стосується і не все-що-екстремальних значень параметрів регуляризації: малі значення дають нерегульовані оцінки параметрів, які будуть менш упередженими (неупередженими, якщо у вас "правильна" модель), але мають вищі дисперсія. Вони будуть «стрибати навколо», дотримуючись ваших фактичних спостережень. Більш високі значення вашої регуляризації "обмежуватимуть" ваші оцінки параметрів все більше і більше. Ось чому методи мають такі назви, як "ласо" або "пружна сітка": вони обмежують свободу ваших параметрів плавати навколо та слідкувати за даними.λ

(Я пишу невеликий документ про це, який, сподіваюся, буде досить доступним. Я додаю посилання, коли воно буде доступне.)


4
Здається, що вирішальною частиною головоломки є: чому методи усадки зменшують дисперсію? (Те, що вони вводять деякі упередження, більш-менш очевидно.) Ви просто заявляєте, що вони роблять; чи можете ви надати певну інтуїцію для цього?
амеба каже, що повернеться до Моніки

2
@Stephan Kolassa Отже, додавання терміну штрафу, що враховує розмір коефіцієнтів, додає трохи упередженості, але зменшує мінливість, оскільки воно карає великі коефіцієнти, які, як правило, мають більшу мінливість, ніж менші коефіцієнти. Це правильно? Тоді, зрештою, ми не так стурбовані отриманням «правильного» значення для будь-якого конкретного коефіцієнта, нас просто цікавить загальна здатність прогнозування моделі?
аспірант-

2
@aspiringstatistician: Ваше друге речення прямо на позначці. (Згадаймо Джорджа Бокса про "неправильні, але корисні" моделі.) Я б не переймався тим, що великі оцінки параметрів скорочуються більше, ніж малі. По-перше, це залежатиме від стандартизації. По-друге, якщо великі величини параметрів добре оцінені (тобто, з низькою помилкою), вони не обов'язково будуть зменшуватися значно. Регуляризація «вважає за краще» стискати ті параметри, які погано визначені, тобто, які мають велику дисперсію.
S. Kolassa - Відновіть Моніку

3
+1. Удачі з папером! @aspiringstatistician: Дуже добре спостереження за усадкою, не пов'язане з отриманням правильної моделі; це абсолютно правильно (і варто подумати): правильно вказана модель може мати гірші можливості прогнозування, ніж регульована та "менш правдива" модель (див. Додаток на сторінці 307 цієї статті для прикладу).
амеба повідомляє Відновити Моніку

7
+1. Просто хотілося додати, що, хоча питання стосувалося інтуїції, що стоїть за регульованими моделями, воно вважається трохи неповним, не кажучи вже про байєсівську деривацію цих моделей. Наприклад, порівнюючи регресію хребта з простим MLE, у більшості застосувань мені здається природним думати про ефект, отриманий від нормального розподілу, на відміну від рівномірного (неправильного) розподілу. Отже, розглядаючи ці методи як окремі випадки оцінки ПДВ, ясно стає причиною вибору регресії хребта.
jlimahaverford

10

Тільки щоб додати щось до точної відповіді @ Коласса, все питання щодо оцінки усадки пов'язане з парадоксом Штейна . Для багатоваріантних процесів з вектор середніх зразків неприпустимий. Іншими словами, для деякого значення параметра існує інший оцінювач з меншим очікуваним ризиком. Як приклад Штейн запропонував оцінювач усадки. Тож ми маємо справу з прокляттям розмірності, оскільки усадка не допомагає тобі, коли у тебе є лише 1 або 2 незалежні змінні.p3

Прочитайте цю відповідь для отримання додаткової інформації. Мабуть, парадокс Штейна пов'язаний з добре відомою теоремою про те, що процес руху Брауїана в 3 і більше вимірах не є повторюваним (блукає всюди, не повертаючись до початку), тоді як 1 і 2 мірні броунани є рецидивними.

Парадокс Штейна дотримується незалежно від того, до чого ви стискаєтесь, хоча на практиці це краще, якщо ви зменшитесь до справжніх значень параметрів. Це те, що роблять байєси. Вони думають, що знають, де справжній параметр, і вони скорочуються до нього. Потім вони стверджують, що Штейн підтверджує їх існування.

Це називається парадоксом саме тому, що він кидає виклик нашій інтуїції. Однак, якщо ви думаєте про броунівський рух, єдиним способом повернути 3D-броунівський рух для повернення до початкового поля, буде накладення демпфуючого штрафу на сходах. Оцінювач усадки також накладає свого роду демпфер для оцінок (зменшує дисперсію), тому це працює.


Чи є у вас посилання на зв'язок між парадоксами Штейна та броунівськими процесами?
kjetil b halvorsen

1
Перейдіть за моїм посиланням у розділі "Прочитайте цю відповідь для отримання додаткової інформації". У цій відповіді є посилання на папір, який робить з'єднання.
Placidia

Байєсові оцінки допустимі по теоремі повного класу: це не має нічого спільного з оцінкою JS безпосередньо. Однак результат того, що JS домінує у вибірці, зробив людей більш зацікавленими у вивченні оцінок байєса. (Я заперечую проти твердження, що байєси "стверджують, що Штейн підтверджує своє існування")
user795305
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.