Питання дуже просте: чому, намагаючись пристосувати модель до наших даних, лінійних чи нелінійних, ми зазвичай намагаємось мінімізувати суму квадратів помилок, щоб отримати наш оцінювач для параметра моделі? Чому б не вибрати якусь іншу цільову функцію для мінімізації? Я розумію, що з технічних причин квадратична функція є кращою, ніж деякі інші функції, наприклад, сума абсолютного відхилення. Але це все ще не дуже переконлива відповідь. Крім цієї технічної причини, чому, зокрема, люди виступають за цей "евклідовий тип" функції дистанції? Чи є для цього конкретне значення чи тлумачення?
Логіка мого мислення полягає в наступному:
Коли у вас є набір даних, ви спочатку налаштовуєте свою модель, роблячи набір функціональних чи розподільних припущень (скажімо, певний момент, але не весь розподіл). У вашій моделі є деякі параметри (припустимо, це параметрична модель), тоді вам потрібно знайти спосіб послідовно оцінювати ці параметри і, сподіваємось, ваш оцінювач матиме низьку дисперсію та деякі інші приємні властивості. Якщо ви мінімізуєте SSE, LAD або якусь іншу цільову функцію, я думаю, що це просто різні методи, щоб отримати послідовний оцінювач. Дотримуючись цієї логіки, я подумав, що люди, які використовують найменший квадрат, повинні бути 1) це створює послідовний оцінювач моделі 2) щось інше, чого я не знаю.
В економетриці ми знаємо, що в лінійній регресійній моделі, якщо ви припускаєте, що умови помилки мають 0 середнього обумовлення прогнозів, а гомоскедастичність і помилки не співвідносяться один з одним, то мінімізація суми квадратної помилки дасть вам ПОВІДОМЛЕННУ оцінку вашої моделі параметрів і за теоремою Гаусса-Маркова цей оцінювач СУНІЙ. Отже, це дозволяє припустити, що якщо ви вирішите мінімізувати якусь іншу об'єктивну функцію, яка не є SSE, то немає гарантії, що ви отримаєте послідовний оцінювач параметрів вашої моделі. Чи правильно я розумію? Якщо це правильно, то мінімізація SSE, а не якоїсь іншої об'єктивної функції, може бути виправдана послідовністю, що прийнятно, насправді, краще, ніж сказати квадратичну функцію приємніше.
У практиці я фактично бачив багато випадків, коли люди безпосередньо мінімізували суму квадратних помилок, не попередньо чітко вказуючи повну модель, наприклад, припущення щодо розподілу (моменти припущення) на термін помилки. Тоді мені здається, що користувач цього методу просто хоче побачити, наскільки тісні дані відповідають "моделі" (я використовую лапки, оскільки припущення щодо моделі, ймовірно, неповні) з точки зору функції квадратної відстані.
Питання, пов'язане з цим веб-сайтом (також пов'язане з цим веб-сайтом): чому ми, намагаючись порівняти різні моделі за допомогою перехресної перевірки, знову використовуємо SSE як критерій судження? тобто вибрати модель, яка має найменше SSE? Чому б не інший критерій?