Чому ми прагнемо мінімізувати x^2
замість мінімізації |x|^1.95
або |x|^2.05
. Чи є причини, чому число повинно бути рівно двома чи це просто умова, яка має перевагу у спрощенні математики?
Чому ми прагнемо мінімізувати x^2
замість мінімізації |x|^1.95
або |x|^2.05
. Чи є причини, чому число повинно бути рівно двома чи це просто умова, яка має перевагу у спрощенні математики?
Відповіді:
Це запитання досить старе, але я справді маю відповідь, яка тут не з'являється, і така, яка дає переконливу причину, чому (за деякими розумними припущеннями) помилка квадрата є правильною, тоді як будь-яка інша влада неправильна.
Скажімо, у нас є деякі дані і хочемо знайти лінійну (або будь-яку) функцію яка найкраще прогнозує дані, в тому сенсі, що щільність ймовірності для спостереження за цими даними повинна бути максимальною щодо (це називається максимальною оцінкою ймовірності ). Якщо припустити, що дані наведені
Немає причин, щоб ви не могли спробувати мінімізувати норми, крім x ^ 2, були цілі книги, написані, наприклад, про кількісну регресію, що, більш-менш, мінімізує | x | якщо ви працюєте з медіаною. Це зробити в цілому складніше, і, залежно від моделі помилок, може не дати хороших оцінок (залежно від того, чи означає це низька дисперсія або об'єктивні або низькі оцінки MSE в контексті).
Що стосується того, чому ми віддаємо перевагу цілим моментам над моментами, що оцінюються за реальною чисельністю, головна причина, ймовірно, в той час, коли цілі сили дійсних чисел завжди призводять до дійсних чисел, нецілі сили негативних дійсних чисел створюють складні числа, тим самим вимагаючи використання абсолютне значення. Іншими словами, хоча третій момент дійсної величини випадкової величини є реальним, 3,2-й момент не обов'язково є реальним і тому спричиняє проблеми інтерпретації.
Крім того, що...
Ми намагаємося мінімізувати дисперсію, що залишилася в дескрипторах. Чому дисперсія? Прочитайте це запитання ; це також поєднується з (переважно беззвучним) припущенням, що помилки зазвичай розподіляються.
Розширення:
два додаткові аргументи:
Щодо дисперсій, ми маємо такий хороший "закон", що сума дисперсій дорівнює дисперсії суми для некоррельованих зразків. Якщо припустити, що помилка не співвідноситься із випадком, мінімізація залишків квадратів буде працювати прямо для максимального пояснення розбіжності, що може бути не надто хорошим, але все-таки популярним показником якості.
Якщо припустити нормальність помилки, оцінка помилок найменших квадратів є максимальною ймовірністю.
У звичайних найменших квадратах рішення для (A'A) ^ (- 1) x = A'b мінімізує втрати в помилках у квадраті і є рішенням максимальної ймовірності.
Отже, багато в чому тому, що математика була простою в цьому історичному випадку.
Але, як правило, люди мінімізують багато різних функцій втрат , таких як експоненціальна, логістична, каучукова, лаплад, хаберська тощо. Ці більш екзотичні функції втрат, як правило, вимагають багато обчислювальних ресурсів і не мають рішень закритої форми (загалом), так вони тільки починають ставати більш популярними зараз.