Чисельна стабільність та надмірне оснащення є певним чином пов'язаними, але різними питаннями.
Класична проблема OLS:
Розглянемо класичну проблему з найменшими квадратами:
minimize(over b)(y−Xb)T(y−Xb)
Рішення - класичний . Ідея полягає в тому, що за законом великих чисел:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Отже, оцінка OLS також переходить до . (У лінійній алгебрі це лінійна проекція випадкової величини на лінійний проміжок випадкових величин .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Проблеми?
Механічно, що може піти не так? Які можливі проблеми?
- Для невеликих зразків наші вибіркові оцінки та можуть бути поганими.E[xx′]E[xy]
- Якщо стовпці є колінеарними (або через властиву колінеарності чи невеликого розміру вибірки), проблема матиме континуум рішення! Рішення може бути не унікальним.
X
- Це відбувається, якщо є дефіцитним.E[xx′]
- Це також відбувається, якщо має дефіцит за рангом через невеликий розмір вибірки відносно кількості випусків регресора.X′X
Проблема (1) може призвести до перевиконання, оскільки оцінка починає відображати зразки у вибірці, яких немає в базовій популяції. Оцінка може відображати шаблони в та , які насправді не існують у іb^1nX′X1nX′yE[xx′]E[xy]
Проблема (2) означає, що рішення не є унікальним. Уявіть, що ми намагаємося оцінити ціну індивідуального взуття, але пари взуття завжди продаються разом. Це невдала проблема, але скажімо, ми все одно це робимо. Ми можемо вважати, що ціна на ліве взуття плюс ціна на праве взуття дорівнює 50 доларам , але як можна придумати індивідуальні ціни? Чи встановлення цін на ліве взуття а ціна на праве взуття гаразд? Як ми можемо вибрати з усіх можливостей?pl=45pr=5
Введення штрафу :L2
Тепер розглянемо:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Це може допомогти нам з обома типами проблем. штраф штовхає нашу оцінку до нуля. Це ефективно функціонує як байєсівський раніше, ніж розподіл за значеннями коефіцієнта зосереджено навколо . Це допомагає при надмірному оснащенні. Наша оцінка буде відображати як дані, так і наші початкові переконання, що майже до нуля.L2b0b
L2 регуляризація також завжди допомагає нам знайти унікальне рішення проблемних проблем. Якщо нам відомо, що ціна лівого і правого взуття становить до , рішенням, яке також мінімізує норму є вибір .$50L2pl=pr=25
Це магія? Ні. Регуляризація - це не те саме, що додавати дані, які насправді дозволять нам відповісти на питання. регуляризація в деякому сенсі сприймає думку про те, що якщо вам бракує даних, вибирайте оцінки, ближчі до .L20