Я думаю, що чим більший коефіцієнт змінної, тим більше здатність моделі до того, щоб «розгойдуватися» в цьому вимірі, забезпечуючи збільшену можливість підключення шуму. Хоча я думаю, що у мене є розумний сенс взаємозв'язку між дисперсією моделі та великими коефіцієнтами, я не маю настільки хорошого розуміння того, чому вони трапляються в моделях з надлишком. Невірно сказати, що вони є симптомом надмірного оснащення, а коефіцієнт усадки - це більше техніка зменшення дисперсії в моделі? Регуляризація через зменшення коефіцієнтів, здається, працює за принципом, що великі коефіцієнти є результатом переозброєної моделі, але, можливо, я неправильно трактую мотивацію цієї техніки.
Моя інтуїція, що великі коефіцієнти, як правило, є симптомом надмірного пристосування, випливає з наступного прикладу:
Скажімо, ми хотіли помістити точок, які всі сидять на осі x. Ми можемо легко побудувати поліном, рішенням якого є ці точки: . Скажімо, наші точки знаходяться при . Ця методика дає всі коефіцієнти> = 10 (крім одного коефіцієнта). Оскільки ми додамо більше точок (і тим самим збільшуємо ступінь многочлена), величина цих коефіцієнтів швидко зросте.
Цей приклад полягає в тому, як я зараз пов'язую розмір коефіцієнтів моделі із "складністю" згенерованих моделей, але я стурбований тим, що цей випадок повинен бути стерильним, щоб дійсно свідчити про поведінку в реальному світі. Я навмисно побудував переозброєну модель (поліном 10-го ступеня OLS, що підходить для даних, сформованих з квадратичної моделі вибірки) і був здивований, побачивши в своїй моделі переважно невеликі коефіцієнти:
set.seed(123)
xv = seq(-5,15,length.out=1e4)
x=sample(xv,20)
gen=function(v){v^2 + 7*rnorm(length(v))}
y=gen(x)
df = data.frame(x,y)
model = lm(y~poly(x,10,raw=T), data=df)
summary(abs(model$coefficients))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.000001 0.003666 0.172400 1.469000 1.776000 5.957000
data.frame(sort(abs(model$coefficients)))
# model.coefficients
# poly(x, 10, raw = T)10 7.118668e-07
# poly(x, 10, raw = T)9 3.816941e-05
# poly(x, 10, raw = T)8 7.675023e-04
# poly(x, 10, raw = T)7 6.565424e-03
# poly(x, 10, raw = T)6 1.070573e-02
# poly(x, 10, raw = T)5 1.723969e-01
# poly(x, 10, raw = T)3 6.341401e-01
# poly(x, 10, raw = T)4 8.007111e-01
# poly(x, 10, raw = T)1 2.751109e+00
# poly(x, 10, raw = T)2 5.830923e+00
# (Intercept) 5.956870e+00
Можливо, з цього прикладу можна відзначити, що дві третини коефіцієнтів менше 1, а відносно інших коефіцієнтів є три коефіцієнти, які незвичайно великі (а змінні, пов'язані з цими коефіцієнтами, також бувають найбільш тісні пов'язані з істинною моделлю вибірки).
Чи є (L2) регуляризація лише механізмом зменшення дисперсії в моделі і тим самим "згладжує" криву для кращого пристосування до майбутніх даних, чи це скористатися евристикою, отриманою з спостереження, що перефіфіковані моделі мають великі коефіцієнти? Чи точне твердження про те, що у переоснащених моделей є великі коефіцієнти? Якщо так, чи може хтось трохи пояснити механізм, що стоїть за явищем, та / або направити мене на деяку літературу?