Грубо кажучи, є три різні джерела помилки прогнозування:
- упередженість вашої моделі
- дисперсія вашої моделі
- незрозуміла дисперсія
Ми не можемо нічого зробити з точки 3 (за винятком спроб оцінити незрозумілу дисперсію та включити її в наші прогнозні щільності та інтервали прогнозування). Це залишає нас з 1 і 2.
Якщо ви насправді маєте "правильну" модель, то, скажімо, оцінки параметрів OLS будуть неупередженими та матимуть мінімальну різницю серед усіх неупереджених (лінійних) оцінювачів (вони СУНІ). Прогнози від моделі OLS будуть найкращими лінійними неупередженими прогнозами (BLUP). Це звучить непогано.
Однак виявляється, що хоча у нас є неупереджені прогнози і мінімальна дисперсія серед усіх неупереджених прогнозів, дисперсія все ще може бути досить великою. Що ще важливіше, ми можемо іноді ввести "невеликий" ухил і одночасно заощадити "багато" дисперсії - і, отримавши компроміс правильно, ми можемо отримати меншу помилку прогнозування з упередженою (нижчою дисперсією) моделлю, ніж з неупередженою ( вища дисперсія) одна. Це називається "компроміс-дисперсія зміщення", і це питання та його відповіді є просвітливими: Коли упереджений оцінювач кращий перед неупередженим?
І саме регуляризація, як ласо, регресія хребта, еластична сітка і так далі, роблять саме це. Вони тягнуть модель до нуля. (Байєсівські підходи схожі - вони тягнуть модель до пріорів.) Таким чином, регуляризовані моделі будуть упередженими порівняно з нерегульованими моделями, але також матимуть меншу дисперсію. Якщо ви виберете своє регуляризаційне право, результат - прогнозування з меншою помилкою.
Якщо ви шукаєте "регуляризацію компромісних змін" або подібне, ви отримуєте трохи їжі для роздумів. Наприклад, ця презентація корисна.
EDIT: Амеба цілком справедливо вказує, що я маю рукоділля щодо того, чому саме регуляризація дає меншу дисперсію моделей та прогнозів. Розглянемо модель ласо з великим параметром регуляризації . Якщо , ваші оцінки параметрів ласо будуть зменшені до нуля. Фіксоване значення нуля має нульову дисперсію. (Це не зовсім правильно, оскільки порогове значення за яким ваші параметри будуть зменшені до нуля, залежить від ваших даних та вашої моделі. Але, враховуючи модель та дані, ви можете знайтиλλ→∞λλтакий, що модель - нульова модель. Завжди тримайте свої квантори прямо.) Однак, нульова модель, звичайно, також має гігантський ухил. Зрештою, це не хвилює фактичних спостережень.
І те ж саме стосується і не все-що-екстремальних значень параметрів регуляризації: малі значення дають нерегульовані оцінки параметрів, які будуть менш упередженими (неупередженими, якщо у вас "правильна" модель), але мають вищі дисперсія. Вони будуть «стрибати навколо», дотримуючись ваших фактичних спостережень. Більш високі значення вашої регуляризації "обмежуватимуть" ваші оцінки параметрів все більше і більше. Ось чому методи мають такі назви, як "ласо" або "пружна сітка": вони обмежують свободу ваших параметрів плавати навколо та слідкувати за даними.λ
(Я пишу невеликий документ про це, який, сподіваюся, буде досить доступним. Я додаю посилання, коли воно буде доступне.)