Чому методи регресії з найменшими квадратами та максимальною ймовірністю не є еквівалентними, коли помилки зазвичай не поширюються?


10

Назва говорить все це. Я розумію, що найменші квадрати та максимальна ймовірність дадуть однаковий результат для коефіцієнтів регресії, якщо помилки моделі нормально розподіляються. Але що станеться, якщо помилки нормально не поширюються? Чому ці два методи вже не рівнозначні?


Ви маєте на увазі (а) використання MLE, коли припущення про нормальність не виконується, або (b) використання неіауссової функції ймовірності?
Тім

(а), коли припущення про нормальність не виконується
Shuklaswag

Навіть коли припущення не виконується (тобто спостережувані значення не розподіляються по Гауссу) ... якщо ви обчислюєте MLE з використанням функції ймовірності Гаусса, то ви робите те саме, що і оптимізація найменших квадратів. Методи оптимізації є математично еквівалентними та незалежними від того, чи було правильним припущення про нормальність чи ні.
Секст Емпірік

Навіть при нормальних розподілах найменші квадрати накладають фіксовану дисперсію.
CodesInChaos

Дивіться також це пов’язане запитання: stats.stackexchange.com/questions/173621/…
kjetil b halvorsen

Відповіді:


16

Коротка відповідь

Щільність ймовірності багатоваріантної розподіленої гауссової змінної , із середнім пов'язана з квадратом евклідового відстань між середнім значенням та змінною ( ), або іншими словами сума квадратів.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Довга відповідь

Якщо ви помножите кілька гауссових розподілів на свої помилок, де ви припускаєте рівні відхилення, то ви отримаєте суму квадратів.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

або у зручній логарифмічній формі:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Таким чином, оптимізація для мінімізації суми квадратів дорівнює максимізації ймовірності (log) (тобто добутку множинних гауссових розподілів або багатоваріантного розподілу Гаусса).μ

Саме цей вкладений квадрат різниці всередині експоненціальної структури, , якого інші розподіли не мають.(μx)exp[(xiμ)2]


Порівняйте, наприклад, з випадком розподілу Пуассона

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

який має максимум, коли мінімізується наступне:

μjlog(μj)xij

який є іншим звіром.


Крім того (історія)

Історія нормального розподілу (ігнорування діМоївре потрапляння до цього розподілу як наближення до біноміального розподілу) насправді є відкриттям розподілу, завдяки якому MLE відповідає методу найменших квадратів (а не методу найменших квадратів, як методу які можуть виражати MLE нормального розподілу, перший прийшов метод найменших квадратів, другий прийшов розподіл Гаусса)

Зауважимо, що Гаусс, пов'язуючи "метод максимальної ймовірності" з "методом найменших квадратів", придумав "розподіл Гаусса", , як єдиний розподіл помилок, що призводить нас до зробити цей зв'язок між двома методами.ex2

З перекладу Чарльза Генрі Девіса (Теорія руху небесних тіл, що рухаються навколо Сонця в конічних розділах. Переклад Гауса "Теорія мотива" з додатком) ...

Гаус визначає:

Відповідно, ймовірність присвоїти кожній помилці буде виражена функцією яку позначимо через .ΔΔψΔ

(Італія зроблена мною)

І продовжується ( у розділі 177 с. 258 ):

... звідки легко зробити висновок, що має бути постійною величиною. яку позначимо через . Отже, у нас є позначає основу гіперболічних логарифмів і припускаючиψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

закінчення (після нормалізації та реалізації ) вk<0

ψΔ=hπehhΔΔ


Автор StackExchangeStrike


Ви пам’ятаєте, звідки ви отримали ці знання? Ви б не хотіли додати джерело до своєї публікації? (Мені важко знайти підручник, який це добре пояснює.)
Joooeey

@Joooeey Я додав заголовок джерела до перекладених цитат Гаусса, а також посилання на одне з багатьох джерел в Інтернеті. Цей оригінальний текст важкий, але вам слід зіткнутися з більш легкими договорами в будь-якому описі історії звичайного розповсюдження.
Секст

Функції ймовірності спливають у багатьох місцях. Якщо ви шукаєте джерела, звідки я отримав це «знання», то, мабуть, я міг би сказати статтю Пірсона 1900 р. Про тест чи-квадрата, де багатофакторний нормальний розподіл розглядається геометрично. Також Фішер кілька разів використовував геометричні зображення (є, наприклад, ця стаття в 20-ті роки, про ефективність оцінок, де він порівнює середню помилку в квадраті і середню абсолютну помилку і де він говорить про поверхні в гіперпросторі).
Секст

@Joooeey я зробив посилання на цей Fisher статтю , перш ніж тут . І моя відповідь тут використовує геометричну точку зору, щоб отримати властивість t-розподілу, що стосується і Фішера (я вважаю, стаття, де він підтверджує t-розподіл Госсета або, можливо, трохи пізніша стаття).
Секст

5

Тому що MLE походить від припущення про залишковий нормально розподіленому.

Зауважте, що

minβ  Xβy2

Не має ймовірнісного значення : просто знайдіть що мінімізує функцію втрат у квадраті. Все детерміновано, а випадкових компонентів там немає.β

Звідки ми припускаємо поняття ймовірності та ймовірності

y=Xβ+ϵ

Де ми розглядаємо як випадкову змінну, і зазвичай розподіляється.ϵyϵ


@Matthew Drury навіщо змінювати позначення матриці та додавати знак суми?
Хайтао Ду

Я вважав, що це буде зрозуміло, але якщо ви заявляєте, що вислів не має пробалістичного значення, ви не можете використовувати вираз із символами, які найкраще трактувати як випадкові змінні. Проблема з оптимізацією, яку ви переглядаєте, стосується фіксованих даних, я зробив це явно.
Меттью Друрі

5

Найменші квадрати і максимальна (гауссова) вірогідність придатності завжди рівноцінні. Тобто вони мінімізовані одним і тим же набором коефіцієнтів.

Зміна припущення про помилки змінює вашу ймовірність функцію (максимізація ймовірності моделі еквівалентна максимізації ймовірності терміну помилки), і, отже, функція більше не буде мінімізована тим самим набором коефіцієнтів.

Тож на практиці обидва однакові, але теоретично, коли ви збільшите максимум іншої ймовірності, ви отримаєте іншу відповідь, ніж найменші квадрати


"або завжди рівнозначний"?
nbro

0

Конкретний приклад: Припустимо, ми беремо просту функцію помилок p (1) =. 9, p (-9) = .10. Якщо ми візьмемо дві точки, то LS просто збирається провести лінію через них. ML, з іншого боку, буде вважати, що обидві точки є однією одиницею занадто високою, і, таким чином, буде проводити лінію через точки, зміщені вниз на одиницю.


2
Ваш приклад незрозумілий; зокрема, важко зрозуміти, яку модель ви намагаєтесь описати, або чому ML мав би отримати результат, про який ви заявляєте. Не могли б ви детальніше зупинитися на цій відповіді?
whuber

Модель полягає в тому, що y = mx + b + помилка, де помилка має 90% шансу бути +1 і 10% шансом бути -9. З огляду на будь-яку спостережувану точку, справжня точка має 90% ймовірність опинитися на одну одиницю нижче і 10% ймовірність бути дев'ятьма одиницями вище. Тому ML дає висновок, що справжня точка - одна одиниця внизу. Що ти не розумієш з цього приводу?
Накопичення

2
Ваш коментар корисний, але ваша відповідь все ще не описує модель явно чи зрозуміло. Чи можете ви включити це пояснення у саму відповідь? Це приємний приклад.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.