Середня помилка у квадраті та залишкова сума квадратів


31

Переглядаючи визначення Вікіпедії:

Мені це здається

MSE=1NRSS=1N(fiyi)2

де N - кількість зразків, а - наша оцінка .fiyi

Однак жодна із статей Вікіпедії не згадує про ці стосунки. Чому? Я щось пропускаю?


6
Я знаю, що це здається недобрим і ворожим, але вони не згадують про це, оскільки це очевидно. Також тут ви хочете бути трохи обережними. Зазвичай, коли ви стикаєтесь з MSE у фактичній емпіричній роботі, це не RSS поділене на N а RSS поділене на NK де K - кількість (включаючи перехоплення) правосторонніх змінних у деякій регресійній моделі .
Білл

10
@Bill: Ну, саме такі відносини, як правило, призводять до посилань на статті у Вікіпедії. Ваша думка щодо ступеня свобод також показує, що це не так очевидно і, безумовно, щось, що варто згадати.
bluenote10

2
@Bill: Погодьтеся, проте очевидність є дуже суб'єктивною. Статистика сірого району статистики / машинного навчання засмічена пеклом, і тому добре бути явним.
rnoodle

Відповіді:


30

Насправді це згадується в розділі Регресія середньої помилки квадрата у Вікіпедії:

При регресійному аналізі термін середня квадратична помилка іноді використовується для позначення неупередженої оцінки дисперсії помилок: залишкової суми квадратів, поділеної на кількість ступенів свободи.

Ви також можете знайти тут інформацію: Помилки та залишки в статистиці Це говорить про те, що вираз середньої помилки у квадраті може мати різні значення в різних випадках, що іноді складно.


4

Але майте на увазі, що сума квадратичних помилок (SSE) та сума залишків квадратів (RSS) іноді використовуються обмінним шляхом, що бентежить читачів. Наприклад, перевірте цю URL-адресу: https://365datascience.com/sum-squares/ для отримання додаткової інформації про лінійну регресію.

Строго кажучи з статистичної точки зору, помилки та залишки - це абсолютно різні поняття. Помилки в основному стосуються різниці між фактичними спостережуваними значеннями вибірки та передбачуваними значеннями, і в основному вони використовуються в статистичних показниках, таких як Root Means Squared Errors (RMSE) та Mean Absollute Errors (MAE). На відміну від цього, залишки стосуються виключно відмінностей між залежними змінними та оцінками від лінійної регресії.


0

Я не думаю, що це правильно, якщо ми вважаємо MSE площею RMSE. Наприклад, у вас є ряд вибіркових даних щодо прогнозів та спостережень, тепер ви намагаєтеся зробити лінійний регрес: Спостереження (O) = a + b X Прогноз (P). У цьому випадку MSE - це сума різниці у квадраті між O і P і ділиться на розмір вибірки N.

Але якщо ви хочете виміряти ефективність лінійної регресії, вам потрібно обчислити середню квадратичну залишок (MSR). У тому ж випадку, це було б спочатку обчислити Залишкова сума квадратів (RSS), яка відповідає сумі квадратних різниць між фактичними значеннями спостереження та передбачуваними спостереженнями, отриманими від лінійної регресії. Потім, це слід за RSS, розділеним на N-2 на отримати MSR.

Простіше кажучи, у прикладі MSE не можна оцінити, використовуючи RSS / N, оскільки компонент RSS вже не той самий для компонента, який використовується для обчислення MSE.


1
Я не розумію цієї відповіді.
Майкл Р. Черник

Подивіться, на основі згаданого прикладу вибіркового прогнозування та спостережуваних значень даних встановлюється лінійна регресія: Спостереження (O) = a + b X Прогнозування (P) (a, b - перехоплення та нахил відповідно). У цьому випадку MSE = Σ (OP) ^ 2 / n, де Σ (OP) ^ 2 - сума квадратичних помилок (SSE) і n - розмір вибірки. Однак середньоквадратичні залишки (MSR) = Σ (OO) ^ 2 / n-2, де Σ (OO) ^ 2 дорівнює сумі залишків квадратів (RSS) і O` = a + b X P. MSR і RSS в основному використовується для перевірки загальної значущості лінійної регресії. Також зауважте, SSE = Систематичні помилки (SE) + RSS, де SE = Σ (PO´) ^ 2
Dr.CYY
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.