Я хотів би дати пряму відповідь.
Яка основна відмінність між оцінкою максимальної ймовірності (MLE) та оцінкою найменших квадратів (LSE)?
Як коментує @TrynnaDoStat, мінімізація помилки у квадраті рівнозначна максимальній вірогідності в цьому випадку. Як говориться у Вікіпедії ,
У лінійній моделі, якщо помилки належать до нормального розподілу, оцінювачі найменших квадратів також є оцінниками максимальної ймовірності.
їх можна розглядати як однакові у вашому випадку,
Дозвольте трохи деталізувати. Оскільки нам відомо, що змінна відповіді ( )
має нормальну модель розподілу помилок,
функція ймовірності:
Очевидно, що максимізація L еквівалентна мінімізації
Це метод найменших квадратів.yYi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
∑i=1n(Yi−λ1Xi−λ2)2
Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки? y
Як пояснено вище, ми фактично (точніше еквівалентно) використовуємо MLE для прогнозування значень . І якщо змінна відповіді має довільні розподіли, а не звичайний розподіл, як розподіл Бернуллі або будь-який із експоненціального сімейства, ми відображаємо лінійний предиктор на розподіл змінної відповіді за допомогою функції зв'язку (відповідно до розподілу відповідей), то функція ймовірності стає добуток усіх результатів (ймовірності від 0 до 1) після перетворення. Ми можемо трактувати функцію зв'язку в лінійній регресі як функцію тотожності (оскільки відповідь - це вже ймовірність).y