Які плюси і мінуси обох методів?
Які плюси і мінуси обох методів?
Відповіді:
Максимальна оцінка ймовірності - це загальний підхід до оцінки параметрів у статистичних моделях шляхом максимізації функції ймовірності, визначеної як
тобто ймовірність отримання даних задана деяким значенням параметра . Знаючи функцію ймовірності для даної проблеми, ви можете шукати таку яка максимально збільшує ймовірність отримання даних, які у вас є. Іноді ми маємо відомі оцінки, наприклад, середнє арифметичне є оцінкою MLE для параметра для нормального розподілу , але в інших випадках можна використовувати різні методи, що включають використання алгоритмів оптимізації. Підхід ML не говорить вам, як знайти оптимальне значення - ви можете просто здогадатися і скористатися ймовірністю порівняти, яка здогадка була кращою - вона просто підказує, як можна порівнятиθ θ μ θ θякщо одне значення "скоріше", ніж інше.
Спуск градієнта - це алгоритм оптимізації . За допомогою цього алгоритму можна знайти мінімум (або максимум, тоді він називається схилом градієнта ) багатьох різних функцій. Алгоритм насправді не хвилює, яку функцію він мінімізує, він просто робить те, про що вимагали. Отже, використовуючи алгоритм оптимізації, ви повинні якось знати, як можна було визначити, чи є одне значення параметра, що цікавить, "краще", ніж інше. Ви повинні надати алгоритму деяку функцію для мінімізації, і алгоритм вирішить знайти його мінімум.
Ви можете отримати максимальну оцінку ймовірності, використовуючи різні методи, і алгоритм оптимізації є одним з них. З іншого боку, спуск градієнта також може бути використаний для максимізації функцій, відмінних від функції ймовірності.
f
Але ймовірність логістичної регресії таким чином не функціонує у закритому вигляді . Тому нам доводиться використовувати інший метод, наприклад gradient descent
.
likelihood function
+ gradient descent
(що дозволяє отримати рішення функції ймовірності) все ще є способом зробити MLE.
Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.
з "Машинного навчання: ймовірнісна перспектива", Кевін Мерфі.