Чому ми зазвичай обираємо мінімізувати суму квадратних помилок (SSE) під час встановлення моделі?


23

Питання дуже просте: чому, намагаючись пристосувати модель до наших даних, лінійних чи нелінійних, ми зазвичай намагаємось мінімізувати суму квадратів помилок, щоб отримати наш оцінювач для параметра моделі? Чому б не вибрати якусь іншу цільову функцію для мінімізації? Я розумію, що з технічних причин квадратична функція є кращою, ніж деякі інші функції, наприклад, сума абсолютного відхилення. Але це все ще не дуже переконлива відповідь. Крім цієї технічної причини, чому, зокрема, люди виступають за цей "евклідовий тип" функції дистанції? Чи є для цього конкретне значення чи тлумачення?

Логіка мого мислення полягає в наступному:

Коли у вас є набір даних, ви спочатку налаштовуєте свою модель, роблячи набір функціональних чи розподільних припущень (скажімо, певний момент, але не весь розподіл). У вашій моделі є деякі параметри (припустимо, це параметрична модель), тоді вам потрібно знайти спосіб послідовно оцінювати ці параметри і, сподіваємось, ваш оцінювач матиме низьку дисперсію та деякі інші приємні властивості. Якщо ви мінімізуєте SSE, LAD або якусь іншу цільову функцію, я думаю, що це просто різні методи, щоб отримати послідовний оцінювач. Дотримуючись цієї логіки, я подумав, що люди, які використовують найменший квадрат, повинні бути 1) це створює послідовний оцінювач моделі 2) щось інше, чого я не знаю.

В економетриці ми знаємо, що в лінійній регресійній моделі, якщо ви припускаєте, що умови помилки мають 0 середнього обумовлення прогнозів, а гомоскедастичність і помилки не співвідносяться один з одним, то мінімізація суми квадратної помилки дасть вам ПОВІДОМЛЕННУ оцінку вашої моделі параметрів і за теоремою Гаусса-Маркова цей оцінювач СУНІЙ. Отже, це дозволяє припустити, що якщо ви вирішите мінімізувати якусь іншу об'єктивну функцію, яка не є SSE, то немає гарантії, що ви отримаєте послідовний оцінювач параметрів вашої моделі. Чи правильно я розумію? Якщо це правильно, то мінімізація SSE, а не якоїсь іншої об'єктивної функції, може бути виправдана послідовністю, що прийнятно, насправді, краще, ніж сказати квадратичну функцію приємніше.

У практиці я фактично бачив багато випадків, коли люди безпосередньо мінімізували суму квадратних помилок, не попередньо чітко вказуючи повну модель, наприклад, припущення щодо розподілу (моменти припущення) на термін помилки. Тоді мені здається, що користувач цього методу просто хоче побачити, наскільки тісні дані відповідають "моделі" (я використовую лапки, оскільки припущення щодо моделі, ймовірно, неповні) з точки зору функції квадратної відстані.

Питання, пов'язане з цим веб-сайтом (також пов'язане з цим веб-сайтом): чому ми, намагаючись порівняти різні моделі за допомогою перехресної перевірки, знову використовуємо SSE як критерій судження? тобто вибрати модель, яка має найменше SSE? Чому б не інший критерій?


Відповіді:


14

Хоча ваше запитання схоже на ряд інших питань на сайті, аспекти цього питання (наприклад, ваш акцент на послідовність) змушують мене думати, що вони недостатньо близькі до дублікатів.

Чому б не вибрати якусь іншу цільову функцію для мінімізації?

Чому б ні, справді? Якщо ваша мета відрізняється від найменших квадратів, замість цього слід вирішити свою ціль!

Тим не менш, найменші квадрати мають ряд приємних властивостей (не в останню чергу, інтимний зв’язок із оцінкою засобів , яких хочуть багато людей, і простота, яка робить очевидним перший вибір при навчанні чи спробі реалізації нових ідей).

Крім того, у багатьох випадках люди не мають чітко вираженої цільової функції, тому є перевага у виборі того, що є доступним та широко зрозумілим.

Тим не менш, найменші квадрати також мають деякі менш приємні властивості (наприклад, чутливість до чужих людей) - тому іноді люди віддають перевагу більш надійному критерію.

мінімізація суми квадратичної помилки дасть вам СУМОВИЙ оцінка параметрів вашої моделі

Найменші квадрати не є вимогою до послідовності. Послідовність не дуже велика перешкода - велика кількість оцінок буде послідовною. Практично всі оцінки, які люди використовують на практиці, послідовні.

і за теоремою Гаусса-Маркова, цей оцінювач СВІЙ.

Але в ситуаціях, коли всі лінійні оцінювачі погані (як це було б у скажімо, в екстремальних важких хвостах), в найкращому не існує великої переваги.

якщо ви вирішите мінімізувати якусь іншу об'єктивну функцію, яка не є SSE, то немає гарантії, що ви отримаєте послідовний оцінювач параметра вашої моделі. Чи правильно я розумію?

не важко знайти послідовних оцінювачів, так що ні, це не особливо хороше обґрунтування найменших квадратів

чому, коли ми намагаємось порівнювати різні моделі за допомогою перехресної перевірки, ми знову використовуємо SSE як критерій судження? [...] Чому б не інший критерій?

Якщо ваша мета краще відображається чимось іншим, чому б ні, справді, не?

Не бракує людей, які використовують інші об'єктивні функції, ніж найменші квадрати. Це пояснюється М-оцінкою, найменш підстриженими оцінниками, квантильною регресією, і коли люди використовують функції втрат LINEX, лише назву декількох.

думав, що коли у вас є набір даних, ви спочатку налаштовуєте свою модель, тобто робите набір функціональних чи розподільних припущень. У вашій моделі є деякі параметри (припустимо, це параметрична модель),

Імовірно, параметри функціональних припущень - це те, що ви намагаєтесь оцінити - у такому випадку функціональні припущення - це те, що ви маєте найменше квадратів (або будь-чого іншого) навколо ; вони не визначають критерій, вони є тим, що оцінює критерій.

З іншого боку, якщо у вас є припущення про розподіл, то у вас є багато інформації про більш підходящу цільову функцію - імовірно, наприклад, ви хочете отримати ефективні оцінки ваших параметрів - які у великих зразках будуть прагнуть вести вас до MLE (хоча, можливо, в деяких випадках, вбудованого в міцні рамки).

то потрібно знайти спосіб послідовної оцінки цих параметрів. Незалежно від того, мінімізуєте SSE, LAD або якусь іншу цільову функцію,

LAD - кількісний оцінювач. Це послідовний оцінювач параметра, який він повинен оцінювати в умовах, в яких його слід очікувати, так само, як і найменших квадратів. (Якщо ви подивитеся на те, що ви виявляєте послідовність з найменшими квадратами, є відповідні результати для багатьох інших загальних оцінок. Люди рідко використовують непослідовні оцінки, тому якщо ви бачите, що оцінювач широко обговорюється, якщо вони не говорять про його непослідовність, це майже звичайно послідовний. *)

nnnn

Якщо ви використовуєте LAD для оцінки середнього значення експоненціалу, це не буде відповідати цьому (хоча тривіальне масштабування його оцінки було б) - але тим же самим знаком, якщо для оцінки медіани експоненції ви використовуєте найменші квадрати. , це не буде відповідати цьому (і знову ж таки, тривіальному виправленню шкали цього виправлення).


Напевно, я не висловив своє занепокоєння чітко. Я думав, що коли у вас є набір даних, ви спочатку налаштовуєте свою модель, тобто робите набір функціональних чи розподільних припущень. У вашій моделі є деякі параметри (припустимо, це параметрична модель), тоді вам потрібно знайти спосіб послідовної оцінки цих параметрів. Якщо ви мінімізуєте SSE, LAD або якусь іншу об'єктивну функцію, я думаю, що це просто різні методи отримання оцінювача. Дотримуючись цієї логіки, я думав, що люди використовують найменший квадрат, повинен бути 1) він створює послідовний оцінювач моделі 2) щось інше
KevinKim

Імовірно, параметри функціональних припущень - це те, що ви намагаєтесь оцінити - у такому випадку функціональні припущення - це те, що ви маєте найменше квадратів (або будь-чого іншого) навколо; вони не визначають критерій. З іншого боку, якщо у вас є припущення про розподіл, то у вас є багато інформації про більш підходящу цільову функцію - імовірно, наприклад, ви хочете отримати ефективні оцінки ваших параметрів - які у великих зразках будуть прагнуть вести вас до MLE (хоча, можливо, в деяких випадках, вбудованого в надійні рамки).
Glen_b -Встановіть Моніку

Ця відповідь вписалася в мою думку. Але у мене все ще виникає питання, що ви маєте на увазі під «критерієм, який не визначає»? Чи означає це, що, наприклад, у економетричній 101 при лінійній регресії, за функціональним (без розподільного) припущення, щоб отримати послідовний оцінювач, ви повинні використовувати ols, ви не можете використовувати якусь довільну цільову функцію для мінімізації, оскільки ні гарантія виведення звідти послідовного оцінювача?
КевінКім

На "не визначай" - дозвольте розширити свою відповідь. Щодо послідовності: я відповів протилежне у своїй відповіді. Дозвольте ще раз зазначити: найменші квадрати не є вимогою послідовності. Сюди входить ситуація, про яку ви тільки що згадали; є нескінченність альтернативних оцінок, які були б послідовними. Практично всі оцінки, які люди використовують на практиці, послідовні. Я відредагую свою відповідь, щоб бути більш чітким.
Glen_b -Встановіть Моніку

для вашої оновленої відповіді, останній абзац, тому для деяких моделей існують деякі способи, які НЕ будуть виробляти послідовні параметри для параметрів вашої моделі, хоча ви можете застосувати цей метод так чи інакше, і compter дасть вам деякі цифри, правда? Тож чи можу я сказати, що для моделі, яку люди будують, щоб отримати оцінки для параметрів у моделі, люди НЕ МОЖУТЬ довільно вибирати цільову функцію для оптимізації ВІДПОВІДНО на основі технічних властивостей її?
КевінКім

5

Ви задали статистичне запитання, і я сподіваюся, що відповідь мого інженера на систему управління - це удари по ньому з достатнього іншого напрямку, щоб бути освічуючим.

Ось "канонічна" форма потоку інформації для інженерії системи управління: введіть тут опис зображення

"R" є опорним значенням. Він підсумовується перетворенням "F" на виході "y", щоб створити помилку "e". Ця помилка - це вхід для контролера, перетворений функцією передачі управління "C" в керуючий вхід для установки "P". Він повинен бути досить загальним, щоб застосувати до довільних рослин. "Установка" може бути автомобільним двигуном для круїз-контролю або кутом введення оберненого маятника.

Скажімо, у вас є рослина з відомою функцією передачі з феноменологією, придатною для наступного обговорення, поточного стану та бажаного кінцевого стану. ( таблиця 2.1 стор. 68 ) Існує нескінченна кількість унікальних шляхів, якими система, з різними входами, може пройти шлях від початкового до кінцевого стану. Підручник керує інженером, «оптимальні підходи» включають оптимальну для часу ( найкоротший час / вибух ), оптимальну відстань (найкоротший шлях), оптимальну силу (найменша максимальна величина введення) та оптимальну енергію (мінімальний загальний вхід енергії).

Так само, як існує нескінченна кількість шляхів, існує нескінченна кількість "оптималів" - кожен з яких вибирає один із цих шляхів. Якщо ви виберете один шлях і скажете, що це найкраще, ви неявно вибираєте "міру добра" або "міру оптимальності".

На мою особисту думку, я вважаю, що людям подобається норма L-2 (він же оптимальний для енергії, він називається найменшою квадратичною помилкою), тому що це просто, легко пояснити, легко виконати, має властивість робити більше роботи проти більших помилок, ніж менші, і листя з нульовим ухилом. Розглянемо норми h-нескінченності, де дисперсія мінімізована і зміщення обмежене, але не дорівнює нулю. Вони можуть бути досить корисними, але вони складніші для опису та складніші для кодування.

Я думаю, що норма L2, яка називає оптимальним шляхом мінімізації енергії, який називається найменшою квадратичною помилкою, є легким і в лінивому сенсі відповідає евристиці, що "більші помилки - це більше погано, а менші помилки - менш погані". Існує буквально нескінченна кількість алгоритмічних способів сформулювати це, але помилка квадрата є однією з найбільш зручних. Для цього потрібна лише алгебра, тому більше людей можуть це зрозуміти. Він працює в (популярному) поліномічному просторі. Енергооптимальний відповідає більшої частини фізики, що складається з нашого сприйнятого світу, тому він "відчуває себе знайомим". Він пристойно швидкий для обчислення і не надто жахливий для пам'яті.

Якщо я отримаю більше часу, я хотів би розмістити фотографії, коди або бібліографічні довідки.


1

SSESSER2SST

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS, які стосуються вашого питання в кінці публікації.

SSE


2
R2R2

R2R2

R2

R2

0

Ви також можете поглянути на мінімізацію максимальної помилки замість розміщення найменших квадратів. На цю тему існує достатня кількість літератури. Для пошукового слова спробуйте "Чебечев" також написав поліноми "Чебишев".


1
Макс - норма L-нескінченності. Якщо ви подивитеся на Nutonian / Formulize / Eureqa, у них є чудовий зоопарк функціональних затрат (форми помилок), включаючи міжквартирну абсолютну помилку, помилку втрати шарніру, ROC-AUC та підписану різницю. formulize.nutonian.com/documentation/eureqa/general-reference / ...
EngrStudent - відновимо Моніка

0

Схоже, люди використовують квадрати, тому що це дозволяє знаходитись у царині лінійної алгебри та не торкатися інших складніших речей, таких як опукла оптимізація, яка є більш потужною, але це призводить до вирішення проблем без приємних рішень закритої форми.

Також ідея цієї математичної сфери, яка має назву опуклою оптимізацією, не поширилася багато.

"... Чому нас хвилює площа предметів. Чесно кажучи, ми можемо проаналізувати її ... Якщо ви скажете, що вона відповідає Енергетиці, і вони купують її, тоді швидко рухайтесь ...." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Також тут Стівен П. Бойд описує у 2008 році, що люди використовують молоток та adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

Зі сторони:

p(т|х,ш,β)=N(т|у(х,ш),β-1)
{х,т}ш
p(т|х,ш,β)=н=1NN(тн|у(хн,ш),β-1).
β2n=1N{y(xn,w)tn}2+N2lnβN2ln(2π)
is the same as minimizing the negative log likelihood. We cab drop the second and the third term since they're constant with regards to w. Also the scaling factor β in the first term can be dropped, since a constant factor does not change the location of the maximum/minimum, leaving us with
12n=1N{y(xn,w)tn}2.
Thus the SSE has arisen as a consequence of maximizing likelihood under the assumption of a Gaussian noise distribution.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.