Яка основна відмінність між максимальною оцінкою ймовірності (MLE) та оцінкою найменших квадратів (LSE)?
Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?
Будь-яка допомога з цієї теми буде дуже вдячна.
Яка основна відмінність між максимальною оцінкою ймовірності (MLE) та оцінкою найменших квадратів (LSE)?
Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?
Будь-яка допомога з цієї теми буде дуже вдячна.
Відповіді:
Я хотів би дати пряму відповідь.
Яка основна відмінність між оцінкою максимальної ймовірності (MLE) та оцінкою найменших квадратів (LSE)?
Як коментує @TrynnaDoStat, мінімізація помилки у квадраті рівнозначна максимальній вірогідності в цьому випадку. Як говориться у Вікіпедії ,
У лінійній моделі, якщо помилки належать до нормального розподілу, оцінювачі найменших квадратів також є оцінниками максимальної ймовірності.
їх можна розглядати як однакові у вашому випадку,
Дозвольте трохи деталізувати. Оскільки нам відомо, що змінна відповіді ( )
має нормальну модель розподілу помилок,
функція ймовірності:
Очевидно, що максимізація L еквівалентна мінімізації
Це метод найменших квадратів.

Чому ми не можемо використовувати MLE для прогнозування значень у лінійній регресії та навпаки?
Як пояснено вище, ми фактично (точніше еквівалентно) використовуємо MLE для прогнозування значень . І якщо змінна відповіді має довільні розподіли, а не звичайний розподіл, як розподіл Бернуллі або будь-який із експоненціального сімейства, ми відображаємо лінійний предиктор на розподіл змінної відповіді за допомогою функції зв'язку (відповідно до розподілу відповідей), то функція ймовірності стає добуток усіх результатів (ймовірності від 0 до 1) після перетворення. Ми можемо трактувати функцію зв'язку в лінійній регресі як функцію тотожності (оскільки відповідь - це вже ймовірність).
ML - вищий набір оцінок, який включає найменші абсолютні відхилення ( -Norm) і найменші квадрати ( -Norm). Під кришкою ML оцінювачі поділяють широкий спектр загальних властивостей, таких як (на жаль) неіснуюча точка розриву. Насправді ви можете використовувати підхід ML як заміну для оптимізації багатьох речей, включаючи OLS, доки ви знаєте, що робите.L 2
L 2 -Norm повертається до CF Gauss і йому близько 200 років, тоді як сучасний підхід ML повертається до (IMHO) Huber 1964. Багато вчених звикли до норм та їх рівнянь. Теорія добре зрозуміла, і є багато опублікованих робіт, які можна розглядати як корисні розширення, такі як:
Професійні програми не просто відповідають даних, вони перевіряють:
Також існує величезна кількість спеціалізованих статистичних тестів на гіпотези. Це не обов'язково стосується всіх оцінювачів ML або повинно бути принаймні заявлено з підтвердженням.
Інший непристойний момент полягає в тому, що -Norm дуже простий у здійсненні, може поширюватися на байєсівську регуляризацію або інші алгоритми, такі як Левенберг-Маркард.
Не забувати: Продуктивність. Не всі найменші квадратні випадки, такі як Гаусс-Марков дають симетричні певні нормальні рівняння . Тому я використовую окремі бібліотеки для кожної -норми. Для цього певного випадку можна провести спеціальні оптимізації. ( X T X ) - 1 L 2
Сміливо запитайте деталі.