Метод максимальної ймовірності проти методу найменших квадратів


42

Яка основна відмінність між максимальною оцінкою ймовірності (MLE) та оцінкою найменших квадратів (LSE)?

Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?y

Будь-яка допомога з цієї теми буде дуже вдячна.


8
Якщо ви хочете, ви можете використовувати MLE в лінійній регресії. Це навіть може мати сенс, якщо розподіл помилок не є нормальним, а ваша мета - отримати оцінку "найімовірнішої", а не ту, яка мінімізує суму квадратів.
Річард Харді

16
При нормальному припущенні помилок, як зазвичай прийнято вважати в лінійній регресії, MLE і LSE однакові!
TrynnaDoStat

1
Шукайте на нашому сайті теорему Гаусса-Маркова .
whuber

дякую за всі відповіді. Тепер це має сенс. Шукаючи цю тему в мережі, я натрапив на цю статтю. Можливо, це також допомагає: radfordneal.wordpress.com/2008/08/09/…
євро

1
Відповідь також надається на сайті stats.stackexchange.com/questions/12562/… .
whuber

Відповіді:


19

Я хотів би дати пряму відповідь.

Яка основна відмінність між оцінкою максимальної ймовірності (MLE) та оцінкою найменших квадратів (LSE)?

Як коментує @TrynnaDoStat, мінімізація помилки у квадраті рівнозначна максимальній вірогідності в цьому випадку. Як говориться у Вікіпедії ,

У лінійній моделі, якщо помилки належать до нормального розподілу, оцінювачі найменших квадратів також є оцінниками максимальної ймовірності.

їх можна розглядати як однакові у вашому випадку,

Дозвольте трохи деталізувати. Оскільки нам відомо, що змінна відповіді ( ) має нормальну модель розподілу помилок, функція ймовірності: Очевидно, що максимізація L еквівалентна мінімізації Це метод найменших квадратів.y

Yi=λ1Xi+λ2+ϵi where ϵN(0,σ2)

введіть тут опис зображення
L(Y1,,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(12σ2(i=1n(Yiλ1Xiλ2)2))
i=1n(Yiλ1Xiλ2)2

Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки? y

Як пояснено вище, ми фактично (точніше еквівалентно) використовуємо MLE для прогнозування значень . І якщо змінна відповіді має довільні розподіли, а не звичайний розподіл, як розподіл Бернуллі або будь-який із експоненціального сімейства, ми відображаємо лінійний предиктор на розподіл змінної відповіді за допомогою функції зв'язку (відповідно до розподілу відповідей), то функція ймовірності стає добуток усіх результатів (ймовірності від 0 до 1) після перетворення. Ми можемо трактувати функцію зв'язку в лінійній регресі як функцію тотожності (оскільки відповідь - це вже ймовірність).y


3
Ви можете визначити "цей випадок" трохи чіткіше, оскільки в цілому максимальна ймовірність та найменші квадрати - це не те саме.
Меттью Ганн

2
@MatthewGunn Так, я використав "еквівалент" іншому, ніж "те саме".
Лернер Чжан

Було б чудово, якби ви навели приклад, коли лінійна модель слід за ненормальним розподілом помилок і як ви використовуєте MLE в такому випадку для оцінки найкращих коефіцієнтів. Якщо це неможливо, принаймні ви можете вказати нам на правильне джерело, яке демонструє це за допомогою лінійних моделей на зразок регресії Пуассона
VM_AI

12

ML - вищий набір оцінок, який включає найменші абсолютні відхилення ( -Norm) і найменші квадрати ( -Norm). Під кришкою ML оцінювачі поділяють широкий спектр загальних властивостей, таких як (на жаль) неіснуюча точка розриву. Насправді ви можете використовувати підхід ML як заміну для оптимізації багатьох речей, включаючи OLS, доки ви знаєте, що робите.L 2L1L2

L 2L2 -Norm повертається до CF Gauss і йому близько 200 років, тоді як сучасний підхід ML повертається до (IMHO) Huber 1964. Багато вчених звикли до норм та їх рівнянь. Теорія добре зрозуміла, і є багато опублікованих робіт, які можна розглядати як корисні розширення, такі як:L2

  • перегляд даних
  • стохастичні параметри
  • слабкі обмеження

Професійні програми не просто відповідають даних, вони перевіряють:

  • якщо параметр суттєвий
  • якщо у вашому наборі даних є інше
  • що зовні можна допустити, оскільки це не калічить продуктивність
  • яке вимірювання слід зняти, оскільки воно не сприяє ступеню свобод

Також існує величезна кількість спеціалізованих статистичних тестів на гіпотези. Це не обов'язково стосується всіх оцінювачів ML або повинно бути принаймні заявлено з підтвердженням.

Інший непристойний момент полягає в тому, що -Norm дуже простий у здійсненні, може поширюватися на байєсівську регуляризацію або інші алгоритми, такі як Левенберг-Маркард.L2

Не забувати: Продуктивність. Не всі найменші квадратні випадки, такі як Гаусс-Марков дають симетричні певні нормальні рівняння . Тому я використовую окремі бібліотеки для кожної -норми. Для цього певного випадку можна провести спеціальні оптимізації. ( X T X ) - 1 L 2Xβ=L+r(XTX)1L2

Сміливо запитайте деталі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.