Яка різниця між дисперсією та середньою помилкою у квадраті?


27

Я здивований, що цього раніше не задавали, але я не можу знайти питання на stats.stackexchange.

Це формула для обчислення дисперсії нормально розподіленої вибірки:

(XX¯)2n1

Це формула для обчислення середньої квадратичної помилки спостережень у простій лінійній регресії:

(yiy^i)2n2

Яка різниця між цими двома формулами? Єдина відмінність, яку я бачу, полягає в тому, що MSE використовує . Тож якщо це єдина різниця, чому б не позначати їх як дисперсією, але з різним ступенем свободи?n2


Що це про сторінку Вікіпедії тут , що не ясно?
TrynnaDoStat

3
Варіантність - це середнє значення квадратичного відхилення спостережень від середнього. MSE на відміну від цього - це середнє значення у квадраті відхилень прогнозів від справжніх значень.
random_guy

3
І "дисперсія", і "середня помилка в квадраті" мають безліч формул і різних застосувань. Щоб уточнити своє запитання, чи можете ви (a) описати, до якого типу даних ви застосовуєте ці поняття та (б) надати для них формули? (Цілком ймовірно, що таким чином ви знайдете і відповідь на своє запитання.)
whuber

6
Там є більш загальна формула, як окремі випадки: , дерявляє собою число параметрівоцінених в отриманні уi(yiy^i)2nppy^
Glen_b -Reinstate Моніка

@Glen_b, можете, будь ласка, надати довідку для отримання додаткової інформації про цю загальну формулу?
trianta2

Відповіді:


28

Середня помилка в квадраті, яку ви написали для OLS, щось приховує:

in(yiy^i)2n2=in[yi(β^0+β^xxi)]2n2

Зауважте, що чисельник підсумовує функцію як y , так і x , тож ви втрачаєте ступінь свободи для кожної змінної, отже n2 . У формулі для вибіркової дисперсії чисельник є функцією однієї змінної, тому ви втрачаєте лише один ступінь свободи в знаменнику.

Однак ви слідуєте, помічаючи, що це концептуально подібні кількості. Дисперсія вибірки вимірює поширення даних навколо середнього зразка (у квадратичних одиницях), тоді як MSE вимірює вертикальне поширення даних навколо лінії регресії вибірки (у вертикальних квадратичних одиницях).


@amoeba Гей! Дякую за увагу Чи є офіційний посібник зі стилю резюме, який запропонував змінити це? Якщо так, я хочу дізнатися про це. Якщо ні, то Glen_b одного разу справедливо заздалегідь заздалегідь намовив мене за те, що я колонізуюсь із моїми особистими вподобаннями стилю та редагуванням інших Qs та As. Як ти гадаєш? (І я запитую це колегіальним тоном: я думаю, що ваша редакція щось додає. Просто хочу краще зрозуміти наші значення редагування.)
Alexis

1
Я не думаю, що існує жоден офіційний посібник зі стилю резюме, який робить цю пропозицію, але в LaTeX є вбудовані формули (позначені знаком долара), які відображаються безпосередньо в текстовому блоці, і відображаються формули (позначені двома знаками долара) які відображаються в окремому рядку. Відображені формули використовують інший макет. Спочатку ваша формула була окремим рядком, але позначена знаком одного долара; Я не думаю, що це має сенс. Однак ви маєте рацію щодо особистих уподобань, тому сміливо відкочуйте вибачення. Причиною, яку я редагував, було те, що я все-таки фіксував помилку в Q.
амеба каже, що поверніть Моніку

β0н-1н-2

1

нн-1 незалежні точки даних як нй точка даних обмежуються вибірковим середнім, так що (н-1) ступенів свободи (DOF) у знаменнику у формулі дисперсії.

Щоб отримати розрахункове значення y (=β0+β1×х) у формулі MSE нам потрібно оцінити обидва β0 (тобто перехоплення), а також β1 (тобто нахил), тому ми втрачаємо 2 DOF, і це є причиною для (н-2) у знаменнику у формулі MSE.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.