Струсово-дисперсійне розкладання

У розділі 3.2 Розпізнавання шаблону Єпископа та машинного навчання він розглядає декомпозицію дисперсійної дисперсії, заявляючи, що для функції збитку в квадраті очікувана втрата може бути розкладена на термін зсуву в квадрат (який описує, наскільки середні прогнози від істинного модель), термін дисперсії (який описує поширення прогнозів навколо середнього) та термін шуму (який дає внутрішній шум даних).

Чи можна розкласти дисперсійне зміщення за допомогою функцій втрат, крім втрат у квадраті?
Чи є для даного набору даних модель більше однієї моделі, очікувані втрати якої є мінімальними для всіх моделей, і якщо так, то чи означає це, що можуть бути різні комбінації зміщення та дисперсії, що дають однакові мінімальні очікувані втрати?
Якщо модель передбачає регуляризацію, чи існує математична залежність між зміщенням, дисперсією та коефіцієнтом регуляризації ? $\lambda$
Як можна обчислити упередженість, якщо ви не знаєте справжньої моделі?
Чи існують ситуації, в яких є більше сенсу мінімізувати зміщення чи відхилення, а не очікувану втрату (сума квадратичного зміщення та дисперсії)?

— Вівек Субраманійський
джерело

... очікувана [квадратична помилка] втрата може бути розкладена на термін зміщення у квадраті (який описує, наскільки середні прогнози від істинної моделі), термін дисперсії (який описує поширення прогнозів навколо середнього) та термін шуму (який дає внутрішній шум даних).

Дивлячись на декомпозицію втрат помилок у квадраті Я бачу лише два терміни: один для зміщення та інший для дисперсії оцінки чи прогноктора . Немає додаткового терміну шуму в очікуваних збитках. Як це має бути, оскільки мінливість - це мінливість , а не самого зразка.

E_{θ} [(θ - δ (X_{1 : n}))^{2}] = (θ - E_{θ} [δ (X_{1 : n})])^{2} + E_{θ} [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}]

$\mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]=(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\mathbb{E}_\theta[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]$

δ (X_{1 : n})

$\delta(X_{1:n})$

δ (X_{1 : n})

$\delta(X_{1:n})$

Чи можна розкласти дисперсійне зміщення за допомогою функцій втрат, крім втрат у квадраті?

Моя інтерпретація розкладу квадратичного зміщення + дисперсії [і того, як я навчаю це] полягає в тому, що це статистичний еквівалент теореми Піфагора, а саме те, що відстань у квадраті між оцінником і точкою в межах певного набору є сумою відстані у квадраті. між оцінником і безліччю, плюс відстань у квадраті між ортогональною проекцією на множину та точкою у множині. Будь-яка втрата, заснована на відстані з даним набором даних, чи існує більше однієї моделі, очікувана втрата якої мінімальна для всіх моделей, і якщо це так, чи означає це, що можуть бути різні комбінації зміщення та дисперсії, які дають вихід той самий мінімальний очікуваний збиток від ортогональної проекції, тобто внутрішній продукт, тобто, по суті, Гільбертові простори, задовольняє це розкладання.

Чи є для даного набору даних модель більше однієї моделі, очікувані втрати якої є мінімальними для всіх моделей, і якщо так, то чи означає це, що можуть бути різні комбінації зміщення та дисперсії, що дають однакові мінімальні очікувані втрати?

Питання незрозуміле: якщо під мінімальними моделями ви маєте на увазі то є багато прикладів статистичні моделі та пов'язані з ними рішення з постійною очікуваною втратою (або ризиком). Візьмемо для прикладу MLE середнього значення.

min_{θ} E_{θ} [(θ - δ (X_{1 : n}))^{2}]

$\min_\theta \mathbb{E}_\theta[(\theta-\delta(X_{1:n}))^2]$

Як можна обчислити упередженість, якщо ви не знаєте справжньої моделі?

У загальному сенсі зміщення - це відстань між справжньою моделлю та найближчою моделлю в межах передбачуваного сімейства розподілів. Якщо справжня модель невідома, зміщення може бути встановлено завантажувальним інструментом.

Чи існують ситуації, в яких є більше сенсу мінімізувати зміщення чи відхилення, а не очікувану втрату (сума квадратичного зміщення та дисперсії)?

При розгляді іншої функції втрати на зразок натиснувши до нуля, ставить більшість оцінок на зміщення, при цьому натискаючи на нескінченність, перемикає фокус на дисперсії.

(θ - E_{θ} [δ (X_{1 : n})])^{2} + α [(E_{θ} [δ (X_{1 : n})] - δ (X_{1 : n}))^{2}] 0 < α

$(\theta-\mathbb{E}_\theta[\delta(X_{1:n})])^2+\alpha[(\mathbb{E}_\theta[\delta(X_{1:n})]-\delta(X_{1:n}))^2]\qquad 0<\alpha$

α

$\alpha$

α

$\alpha$

— Сіань
джерело

Термін шуму, на який посилається ОП, пов'язаний з тим, що оцінювач не для параметра, а для функції в моделі , де передбачається, що (незалежний) шум має нульове значення та дисперсія . Додавання і віднімання спочатку потім в , доходить до згаданого розкладу ім'я

f

$f$

Y = f (X) + ϵ

$Y = f(X) + \epsilon$

ϵ

$\epsilon$

σ_{ϵ}

$\sigma_\epsilon$

f (X)

$f(X)$

E [\hat{f} (X)]

$E[\hat{f}(X)]$

E [(Y - f (X))^{2} | X = x]

$E[(Y-f(X))^2 | X=x]$

σ_{ϵ}^{2} + {Bias}^{2} \hat{f} (x) + Var \hat{f} (x)

$\sigma^2_\epsilon + \operatorname{Bias}^2 \hat{f}(x) + \operatorname{Var} \hat{f}(x)$

— Мігель

Це припущення, що не залежить від , що не видається реалістичним припущенням.

\hat{f}

$\hat f$

ϵ

$\epsilon$

— Сіань

Хм, ти, звичайно, правильний. Але я думаю, що це питання є артефактом мого неохайного виведення. Перевірте статтю 223 ESLII Hastie & Tibshirani

— Мігель

@ Мігель: насправді ми вважаємо, що не залежить від X, а не . Особисто я вважаю, що виведення ESL (і багатьох інших) не є суворим, таким чином, заплутаним. Виведення професора Мостафи в "Вчитися з даних" має бути тим, що ви шукаєте, або в цій публікації: stats.stackexchange.com/questions/164378/…

ϵ

$\epsilon$

\hat{f}

$\hat{f}$

— SiXUlm