Переглядаючи визначення Вікіпедії:
- Середня помилка в квадраті (MSE)
- Залишкова сума квадратів (RSS)
Мені це здається
де - кількість зразків, а - наша оцінка .
Однак жодна із статей Вікіпедії не згадує про ці стосунки. Чому? Я щось пропускаю?
Переглядаючи визначення Вікіпедії:
Мені це здається
де - кількість зразків, а - наша оцінка .
Однак жодна із статей Вікіпедії не згадує про ці стосунки. Чому? Я щось пропускаю?
Відповіді:
Насправді це згадується в розділі Регресія середньої помилки квадрата у Вікіпедії:
При регресійному аналізі термін середня квадратична помилка іноді використовується для позначення неупередженої оцінки дисперсії помилок: залишкової суми квадратів, поділеної на кількість ступенів свободи.
Ви також можете знайти тут інформацію: Помилки та залишки в статистиці Це говорить про те, що вираз середньої помилки у квадраті може мати різні значення в різних випадках, що іноді складно.
Але майте на увазі, що сума квадратичних помилок (SSE) та сума залишків квадратів (RSS) іноді використовуються обмінним шляхом, що бентежить читачів. Наприклад, перевірте цю URL-адресу: https://365datascience.com/sum-squares/ для отримання додаткової інформації про лінійну регресію.
Строго кажучи з статистичної точки зору, помилки та залишки - це абсолютно різні поняття. Помилки в основному стосуються різниці між фактичними спостережуваними значеннями вибірки та передбачуваними значеннями, і в основному вони використовуються в статистичних показниках, таких як Root Means Squared Errors (RMSE) та Mean Absollute Errors (MAE). На відміну від цього, залишки стосуються виключно відмінностей між залежними змінними та оцінками від лінійної регресії.
Я не думаю, що це правильно, якщо ми вважаємо MSE площею RMSE. Наприклад, у вас є ряд вибіркових даних щодо прогнозів та спостережень, тепер ви намагаєтеся зробити лінійний регрес: Спостереження (O) = a + b X Прогноз (P). У цьому випадку MSE - це сума різниці у квадраті між O і P і ділиться на розмір вибірки N.
Але якщо ви хочете виміряти ефективність лінійної регресії, вам потрібно обчислити середню квадратичну залишок (MSR). У тому ж випадку, це було б спочатку обчислити Залишкова сума квадратів (RSS), яка відповідає сумі квадратних різниць між фактичними значеннями спостереження та передбачуваними спостереженнями, отриманими від лінійної регресії. Потім, це слід за RSS, розділеним на N-2 на отримати MSR.
Простіше кажучи, у прикладі MSE не можна оцінити, використовуючи RSS / N, оскільки компонент RSS вже не той самий для компонента, який використовується для обчислення MSE.