Математична інтуїція рівняння зміщення-варіації


12

Нещодавно я задав питання, що шукав математичну інтерпретацію / інтуїцію за елементарним рівнянням, що стосується середньої вибірки та дисперсії: , геометрична чи інша.E[X2]=Var(X)+(E[X])2

Але зараз мені цікаво поверхнево подібне рівняння компромісії відхилення.

MSE(θ^)=E[(θ^θ)2]=E[(θ^E[θ^])2]+(E[θ^]θ)2=Var(θ^)+Bias(θ^,θ)2
(формули з Вікіпедії )

Для мене існує поверхнева подібність з рівнянням зміщення відхилення зміщення для регресії: три доданки з квадратами і два додавання до іншого. Дуже піфагорійський вигляд. Чи існує подібний векторний зв’язок, включаючи ортогональність для всіх цих елементів? Або є якась інша пов'язана математична інтерпретація, яка застосовується?

Я шукаю математичну аналогію з деякими іншими математичними об'єктами, які можуть пролити світло. Я не шукаю аналогії точності та точності, яка тут добре висвітлена. Але якщо існують нетехнічні аналогії, які люди можуть надати між компромісом відхилення відхилення та набагато більш базовим середньо-різницевим співвідношенням, це теж було б чудово.

Відповіді:


12

Подібність більш ніж поверхнева.

"Компромісія дисперсії зміщення" може бути інтерпретована як теорема Піфагора, застосована до двох перпендикулярних евклідових векторів: довжина одного є стандартним відхиленням, а довжина іншого - зміщення. Довжина гіпотенузи - це середньоквадратична помилка у квадраті.

Фундаментальні відносини

В якості точки відправлення розглянемо цей виявляючий обчислення, дійсний для будь-якої випадкової величини з кінцевим другим моментом і будь-яким реальним числом . Оскільки другий момент є кінцевим, має кінцеве середнє для якого , звідкиa X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(Xμ)=0

(1)E((Xa)2)=E((Xμ+μa)2)=E((Xμ)2)+2E(Xμ)(μa)+(μa)2=Var(X)+(μa)2.

Це показує , як середній квадрат відхилення між і будь-який «базової лінії» значення змінюється з : вона є квадратичною функцією з мінімумом , де середній квадрат відхилення дисперсія .a a a μ XXaaaμX

Зв'язок з оцінювачами та зміщенням

Будь-який оцінювач є випадковою змінною, оскільки (за визначенням) це (вимірювана) функція випадкових змінних. Дозволяючи йому грати роль у попередньому, а дозволяючи оцінці (річ повинна оцінюватися) бути , у нас є ; Х & thetas ; & thetasθ^Xθ^θ

MSE(θ^)=E((θ^θ)2)=Var(θ^)+(E(θ^)θ)2.

Повернемось до тепер, коли ми побачили, як твердження про зміщення + дисперсія для оцінювача буквально є випадком . Питання шукає "математичні аналогії з математичними об'єктами". Ми можемо зробити більше, показавши, що випадкові змінні, що інтегруються в квадрат, природним чином можуть бути перетворені в евклідовий простір.(1)(1)

Математичний фон

У дуже загальному сенсі випадкова величина - це (вимірювана) реально оцінена функція на просторі ймовірностей . Сукупність таких функцій, які є квадратною інтеграцією, яку часто записують (з розумінням заданої структури ймовірностей), майже є простором Гільберта. Для того, щоб зробити це в єдине ціле, ми повинні прирівнювати будь-які дві випадкові величини і , які на насправді не відрізняються з точки зору інтеграції: тобто, ми говоримо і є еквівалентними , коли(Ω,S,P)L2(Ω)XYXY

E(|XY|2)=Ω|X(ω)Y(ω)|2dP(ω)=0.

Це просто , щоб перевірити , що це справжнє ставлення еквівалентності: найголовніше, коли еквівалентний і еквівалентно , то обов'язково буде еквівалентний . Таким чином, ми можемо розділити всі квадратні інтегруючі випадкові величини на класи еквівалентності. Ці класи утворюють множину . Крім того, успадковує векторний простір , структура визначається поточечного складання значень і точково скалярного множення. На цьому векторному просторі функціяXYYZXZL2(Ω)L2L2

X(Ω|X(ω)|2dP(ω))1/2=E(|X|2)

- норма , часто пишеться . Ця норма перетворює у простір Гільберта. Подумайте про простір Гільберта як про "нескінченний розмірний евклідовий простір". Будь-яке кінцевовимірне підпростір успадковує норму з а , з цією нормою, є евклідовим простором: ми можемо робити в ньому евклідову геометрію.||X||2L2(Ω)HVHHV

Нарешті, нам потрібен один факт, який є особливим для просторів ймовірностей (а не просторів загальної міри): оскільки є ймовірністю, він обмежений (на ), звідси постійні функції (для будь-яких фіксоване дійсне число ) - квадратні інтегрувані випадкові величини з кінцевими нормами.P1ωaa

Геометрична інтерпретація

Розглянемо будь-яку квадратну інтегральну випадкову змінну , яку вважають представником класу її еквівалентності в . Він має середній , які (як можна перевірити) залежить тільки від класу еквівалентності . Нехай - клас постійної випадкової величини.XL2(Ω)μ=E(X)X1:ω1

X і генерують евклідовий підпростір , розмір якого не більше . У цьому підпросторі, являє собою квадрат довжини і є довжина квадрата постійної випадкової величини . Основоположним є те, що перпендикулярно до . (Одне визначення полягає в тому, що це унікальне число, для якого це так.) Зв'язок може бути записаний1VL2(Ω)2||X||22=E(X2)X||a1||22=a2ωaXμ11μ(1)

||Xa1||22=||Xμ1||22+||(aμ)1||22.

Це дійсно саме теорема Піфагора, фактично в тій же формі, відомі 2500 років тому. Об'єкт є гіпотенузою прямого трикутника з ніжками і .

Xa1=(Xμ1)(aμ)1
Xμ1(aμ)1

Якщо ви хочете математичних аналогій, то ви можете використовувати все, що може бути виражено через гіпотенузу прямого трикутника в евклідовому просторі. Гіпотенуза буде представляти "помилку", а ноги представлятимуть зміщення та відхилення від середнього.


Відмінно. Отже, міркування майже ідентичні тому, що було в попередньому запитанні щодо . Тож між ними є аналогія, правда? Інтуїтивно здається, що упередженість аналогічна значенню. І узагальнення полягає в тому, що середнє значення є першим моментом відносно 0, але зміщення є відносно справжнього значення параметра. Це правильно звучить? Var=EX2(EX)2
Мітч

Так - за умови (що це розуміння, додане геометричною інтерпретацією), що правильний спосіб вимірювання цих речей полягає в їх квадраті.
whuber

Таким чином, whuber, у мене пов'язане питання. Для будь-якого машинного навчання у мене є ці два поняття "якщо ми збільшимо розмір вибірки, дисперсія асимптотично неупередженого оцінювача піде на нуль" і "якщо ми збільшимо складність моделі, отже, ми матимемо низький ухил та велику дисперсію" . Отже, чи можу я сказати, що більша обчислювальна потужність дозволяє отримати більшу складність, що зменшить ухил, але збільшить дисперсію. Однак при асимптотиці це збільшення дисперсії буде компенсовано.
АРАТ

@Mustafa Ви робите кілька сильних припущень. Перший полягає в тому, що вибірка є випадковою і (принаймні приблизно) незалежною - що часто не буває в заявках на використання ML. Висновки щодо збільшення складності моделі, як правило, не відповідають дійсності, частково тому, що "збільшення складності" означає, що ви змінюєте модель, і це ставить під сумнів сенс того, що оцінює ваш оцінювач, а також те, як цей оцінювач може бути пов'язаний з його оцінкою . Це не обов'язково випливає, що підвищення складності моделі має будь-який загально передбачуваний ефект на зміщення або дисперсію.
whuber

4

Це спосіб візуально подумати про точність та зміщення відхилень. Припустимо, ви дивитесь на ціль і робите багато пострілів, які всі розкидані близько до центру мішені таким чином, щоб не було упередженості. Тоді точність визначається виключно дисперсією, а коли дисперсія невелика, стрілець точний.

Тепер розглянемо випадок, коли велика точність, але велика упередженість. У цьому випадку кадри розкидані навколо точки, далеко від центру. Щось псує ціль, але навколо цієї мети кожен постріл близький до нової точки цілі. Стрілець точний, але дуже неточний через упередженість.

Є й інші ситуації, коли постріли точні через невелику упередженість та високу точність. Те, що ми хочемо, - це не зміщення та невелика дисперсія або невелика дисперсія з малим ухилом. У деяких статистичних проблемах ви не можете мати обох. Таким чином, MSE стає мірою точності, яку ви хочете використовувати, яка відтворює зміщення відхилення дисперсії та мінімізацію MSE повинна стати метою.


Чудовий інтуїтивний опис про зміщення дисперсії та аналогію точності. Я також шукаю математичну інтерпретацію, як теорема Піфагора.
Мітч

1
Я не зосереджувався на цьому, тому що він висвітлювався в іншій публікації, в якій обговорювалося геометричне тлумачення. Я знайду посилання для вас.
Майкл Р. Черник

@Mitch Пошук "Компромісу з відхиленням відхилень" дав 134 звернення на сайті резюме. Я ще не знайшов теорему Піфагора, але ця дійсно хороша і має картину цілей, про які я обговорював у цій публікації. "Інтуїтивне пояснення компромісного відхилення".
Майкл Р. Черник

Я знайшов ту, яку шукав з 5 січня 2017 року "інтуїція (геометрична чи інша) Var (X) = E [ ] - ( ). E [ X ] ) 2X2E[X])2
Майкл Р. Черник

@Mitch Я не здогадувався, що ти розмістив запитання, яке я шукав.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.