Ухил до натуральних чисел у випадку найменших квадратів


14

Чому ми прагнемо мінімізувати x^2замість мінімізації |x|^1.95або |x|^2.05. Чи є причини, чому число повинно бути рівно двома чи це просто умова, яка має перевагу у спрощенні математики?

Відповіді:


5

Це запитання досить старе, але я справді маю відповідь, яка тут не з'являється, і така, яка дає переконливу причину, чому (за деякими розумними припущеннями) помилка квадрата є правильною, тоді як будь-яка інша влада неправильна.

Скажімо, у нас є деякі дані і хочемо знайти лінійну (або будь-яку) функцію яка найкраще прогнозує дані, в тому сенсі, що щільність ймовірності для спостереження за цими даними повинна бути максимальною щодо (це називається максимальною оцінкою ймовірності ). Якщо припустити, що дані наведеніD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)ffσ

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
pf(D)i=1n(yif(xi))2

Це здається круговим, чому ви повинні приймати нормально розподілений помилку?
Джо

@Joe Не завжди, але якщо єдине, що ви знаєте про термін помилки, - це те, що він має середнє значення 0 і кінцеве очікуване абсолютне значення, то це припущення про максимальну ентропію, тож воно може стояти за будь-яке невідоме функція помилок, яку ви насправді маєте. Якщо у вас є додаткова інформація про розподіл помилок, то, гадаю, ви могли б скористатися нею і знайти більш точний оцінку максимальної ймовірності.

"якщо єдине, що ви знаєте про термін помилки, - це те, що він має середнє значення 0 і кінцеве очікуване абсолютне значення, то це припущення про максимальну ентропію" - кожне виведення максимальних ентропійних розподілів, які я бачив, виводить розподіл Лапласа як максимальний розподіл для (відомого) кінцевого очікуваного абсолютного значення, тоді як Гаусс - це максимум для (відомого) кінцевого очікуваного абсолютного значення у квадраті, див. один приклад stats.stackexchange.com/questions/82410/… чи є у вас цитати, які не згодні ?
Джо

Знаєте, я цього не роблю. Я припускаю, що ти маєш рацію. (Хоча я чомусь не можу зрозуміти, як відредагувати свій коментар)

14

Немає причин, щоб ви не могли спробувати мінімізувати норми, крім x ^ 2, були цілі книги, написані, наприклад, про кількісну регресію, що, більш-менш, мінімізує | x | якщо ви працюєте з медіаною. Це зробити в цілому складніше, і, залежно від моделі помилок, може не дати хороших оцінок (залежно від того, чи означає це низька дисперсія або об'єктивні або низькі оцінки MSE в контексті).

Що стосується того, чому ми віддаємо перевагу цілим моментам над моментами, що оцінюються за реальною чисельністю, головна причина, ймовірно, в той час, коли цілі сили дійсних чисел завжди призводять до дійсних чисел, нецілі сили негативних дійсних чисел створюють складні числа, тим самим вимагаючи використання абсолютне значення. Іншими словами, хоча третій момент дійсної величини випадкової величини є реальним, 3,2-й момент не обов'язково є реальним і тому спричиняє проблеми інтерпретації.

Крім того, що...

  1. Аналітичні вирази для цілих моментів випадкових змінних, як правило, набагато простіше знайти, ніж моменти, що мають значення в реальному значенні, будь то шляхом генерації функцій або якогось іншого методу. Таким чином, методи їх мінімізації легше написати.
  2. Використання цілих моментів призводить до виразів, які є більш простежуваними, ніж реальні значення.
  3. Я не можу придумати переконливу причину того, що (наприклад) 1,95-й момент абсолютного значення X забезпечить кращі придатні властивості, ніж (наприклад) 2-й момент X, хоча це може бути цікавим для дослідження
  4. Специфічна для норми L2 (або помилка квадрата), її можна записати через крапкові продукти, що може призвести до значних поліпшень швидкості обчислення. Це також єдиний Lp-простір - це простір Гільберта, що є приємною особливістю.

8

Ми намагаємося мінімізувати дисперсію, що залишилася в дескрипторах. Чому дисперсія? Прочитайте це запитання ; це також поєднується з (переважно беззвучним) припущенням, що помилки зазвичай розподіляються.

Розширення:
два додаткові аргументи:

  1. Щодо дисперсій, ми маємо такий хороший "закон", що сума дисперсій дорівнює дисперсії суми для некоррельованих зразків. Якщо припустити, що помилка не співвідноситься із випадком, мінімізація залишків квадратів буде працювати прямо для максимального пояснення розбіжності, що може бути не надто хорошим, але все-таки популярним показником якості.

  2. Якщо припустити нормальність помилки, оцінка помилок найменших квадратів є максимальною ймовірністю.


1
Відповідь у цій іншій нитці насправді не пояснює, чому 2 є кращим значенням, ніж інші значення, які дуже близькі до 2, але не мають натуральних чисел.
Крістіан

Я думаю, що це робить; все ж я спробую розширити відповідь.

Отже, якщо помилки зазвичай не розподіляються, але, наприклад, згідно з іншим стійким до Леві розподілом, можливо, виправдано використовувати показник, відмінний від 2?
Раскольников

Пам'ятайте, нормальний розподіл є найбільш "обережним" для відомої дисперсії (тому що має максимальну ентропію серед усіх густин з фіксованою дисперсією). Це залишає найбільше сказати за даними. Або кажучи іншим способом, для "великих" наборів даних з однаковою дисперсією "вам" доведеться "спробувати" неймовірно важко, щоб отримати розподіл, який відрізняється від звичайного.
ймовірністьлогічний

8

У звичайних найменших квадратах рішення для (A'A) ^ (- 1) x = A'b мінімізує втрати в помилках у квадраті і є рішенням максимальної ймовірності.

Отже, багато в чому тому, що математика була простою в цьому історичному випадку.

Але, як правило, люди мінімізують багато різних функцій втрат , таких як експоненціальна, логістична, каучукова, лаплад, хаберська тощо. Ці більш екзотичні функції втрат, як правило, вимагають багато обчислювальних ресурсів і не мають рішень закритої форми (загалом), так вони тільки починають ставати більш популярними зараз.


1
+1 за введення ідеї втрати. (Але чи не "експоненціальні" тощо, розподіли , а не функції втрат?) Історично лінійна втрата була першим підходом, офіційно розробленим у 1750 році, і для нього було доступне пряме геометричне рішення. Я вважаю, що Лаплас встановив зв’язок між цим та подвійним експоненціальним розподілом у публікації 1809 року (для якої MLE зменшить абсолютну помилку, а не квадратичну помилку). Таким чином, збиток у квадраті не відрізняється однозначно за критеріями мати MLE та бути математично простим.
whuber

Вони обидва функції розподілу та втрати в різних контекстах.
Джо

Я занадто швидко натискав на введення попередньої відповіді - експоненціальна втрата широко пов'язана із збільшенням (див. Статистичний погляд Фрідмана Хасті та Тібшірані на підвищення рівня), де це втрата, а не розподіл, логістична регресія відповідає втраті журналу, лаплас - це розподіл, але відповідає абсолютній втраті значення, тому я здебільшого був надзвичайно неохайним, дякую, що вказав на це. Але хоча втрата L1 має геометричне рішення, це не аналітично закрита форма, тому я навряд чи назвав би її рішення легким.
Джо

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.