Яка різниця між максимальною оцінкою ймовірності та градієнтним походженням?


16

Які плюси і мінуси обох методів?


1
Я не шукаю лише визначення цих двох методів, які я вже маю в пошуку Google. Я намагаюся зрозуміти, який метод є кращим у такому випадку. Напр .: Для Bigdata буде працювати краще, ніж для інших тощо. Я не зміг знайти жодного хорошого матеріалу, який розповідає про практичні аспекти тощо.
GeorgeOfTheRF

8
Як ворон схожий на письмовий стіл?
whuber

4
@ML_Pro GD так чи інакше стосується статистичного моделювання, це алгоритм. Напевно, ви можете почати з вступного посібника зі статистики, щоб краще зрозуміти статистичні умовиводи, перш ніж вивчати інструменти (як GD) для вирішення статистичних проблем.
Тім

1
Ви хотіли запитати різницю між зниженням градієнта та максимальним очікуванням (яке зазвичай використовується для вирішення проблеми оптимізації в MLE)?
Собі

Відповіді:


32

Максимальна оцінка ймовірності - це загальний підхід до оцінки параметрів у статистичних моделях шляхом максимізації функції ймовірності, визначеної як

L(θ|X)=f(X|θ)

тобто ймовірність отримання даних задана деяким значенням параметра . Знаючи функцію ймовірності для даної проблеми, ви можете шукати таку яка максимально збільшує ймовірність отримання даних, які у вас є. Іноді ми маємо відомі оцінки, наприклад, середнє арифметичне є оцінкою MLE для параметра для нормального розподілу , але в інших випадках можна використовувати різні методи, що включають використання алгоритмів оптимізації. Підхід ML не говорить вам, як знайти оптимальне значення - ви можете просто здогадатися і скористатися ймовірністю порівняти, яка здогадка була кращою - вона просто підказує, як можна порівнятиθ θ μ θ θXθθμθякщо одне значення "скоріше", ніж інше.θ

Спуск градієнта - це алгоритм оптимізації . За допомогою цього алгоритму можна знайти мінімум (або максимум, тоді він називається схилом градієнта ) багатьох різних функцій. Алгоритм насправді не хвилює, яку функцію він мінімізує, він просто робить те, про що вимагали. Отже, використовуючи алгоритм оптимізації, ви повинні якось знати, як можна було визначити, чи є одне значення параметра, що цікавить, "краще", ніж інше. Ви повинні надати алгоритму деяку функцію для мінімізації, і алгоритм вирішить знайти його мінімум.

Ви можете отримати максимальну оцінку ймовірності, використовуючи різні методи, і алгоритм оптимізації є одним з них. З іншого боку, спуск градієнта також може бути використаний для максимізації функцій, відмінних від функції ймовірності.


5
@ML_Pro Я надав два посилання, де ви можете знайти детальну інформацію, я не думаю, що потрібно дублювати ці відповіді.
Тім

8
@ML_Pro, як я писав у своїй відповіді, це різні речі, і ви не можете їх порівняти ...
Тим

7
Так, але MLE - це загальний підхід, і GD - це лише алгоритм, який ви можете використовувати для мінімізації кількох різних функцій. Це як ви порівняли алгебру з кишеньковим калькулятором ...
Тім

4
MLE вказує цільову функцію (функцію ймовірності); GD знаходить оптимальне рішення проблеми, коли буде визначена цільова функція. Ви можете використовувати GD (або інші алгоритми оптимізації) для вирішення проблеми максимальної ймовірності, і результатом буде максимальний показник ймовірності.
jbowman

1
@ML_Pro про це описано у посиланнях, які я надав у своїй відповіді. Якщо коротко: так, це продукт PDF-файлів. Продукт, тому що ми припускаємо, що дані є iid. Він визначається через pdf, тому що ми говоримо про ймовірнісну модель.
Тім

-3

f=l(θ)
dfdθ=0

θ
f

Але ймовірність логістичної регресії таким чином не функціонує у закритому вигляді . Тому нам доводиться використовувати інший метод, наприклад gradient descent.


@ Тім, ви можете побачити що - то тут, courses.cs.washington.edu/courses/cse446/13sp/slides / ...
Belter

"Коефіцієнти регресії зазвичай оцінюються, використовуючи максимальну оцінку ймовірності" ( en.wikipedia.org/wiki/Logistic_regression )
Тим

Максимальна оцінка вірогідності - це свого роду метод оцінки коефіцієнтів регресії, але у нас є кілька способів знайти рішення MLE. Тож використання likelihood function+ gradient descent(що дозволяє отримати рішення функції ймовірності) все ще є способом зробити MLE.
Белтер

Ви також можете побачити це речення Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.з "Машинного навчання: ймовірнісна перспектива", Кевін Мерфі.
Белтер

... то формулювання вашої відповіді є заплутаним, оскільки це звучить так, як ви говорите, що для логістичної регресії ми не використовуємо ML, а натомість використовуємо GD.
Тім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.