Чому ми мінімізуємо негативну ймовірність, якщо вона еквівалентна максимізації ймовірності?

47

Це питання мене спантеличувало вже давно. Я розумію використання 'log' для максимізації ймовірності, тому не запитую про «log».

Моє запитання таке: оскільки максимізація ймовірності журналу рівнозначна мінімізації "негативної ймовірності журналу" (NLL), чому ми винайшли цю NLL? Чому ми не використовуємо "позитивну ймовірність" весь час? За яких обставин надається перевага NLL?

Тут я знайшов невелике пояснення. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , і, здається, пояснює очевидну еквівалентність у глибині, але не вирішує мою плутанину.

Будь-яке пояснення буде вдячне.

maximum-likelihood likelihood

— Тоні
джерело

3

Максимальна ймовірність журналу - це не функція збитку, але її негативний показник пояснюється в статті в останньому розділі. Це питання послідовності. Припустимо, у вас розумна система навчання, яка намагається виконати різні функції втрат для даної проблеми. Набір функцій втрат міститиме квадратичні збитки, абсолютні втрати тощо. Для того, щоб мати послідовний список, ви додасте до списку функцій втрат негативні ймовірності журналу.

— Cagdas Ozgenc

41

Це альтернативна відповідь: оптимізатори в статистичних пакетах зазвичай працюють, зводячи до мінімуму результат функції. Якщо ваша функція спочатку дає значення ймовірності, зручніше використовувати логарифм, щоб зменшити значення, повернене функцією ймовірності. Тоді, оскільки функція ймовірності журналу та ймовірності журналу мають однакову тенденцію до збільшення чи зменшення, ви можете мінімізувати негативну ймовірність журналу, щоб фактично виконати максимальну оцінку ймовірності функції, яку ви тестуєте. Дивіться, наприклад, nlminbфункцію в R тут

— Нікола Дінаполі
джерело

10

Я б сказав, що це навіть виходить за рамки оптимізаторів і коріння законів у теорії оптимізації. Здається, що мінімізація часто вважається оптимізацією за замовчуванням. Наприклад, розглянемо назву "опукла оптимізація", яка йде разом з мінімізацією, але так само легко може бути названа "увігнутою оптимізацією".

— Побіт

48

Оптимізатори зазвичай мінімізують функцію, тому ми використовуємо негативну ймовірність журналу як мінімізацію, що еквівалентно максимізації ймовірності журналу або самої ймовірності.

Я просто зазначив, що логарифм є монотонною функцією, тому оптимізація функції - це те саме, що оптимізація її логарифму. Здійснення перетворення журналу функції ймовірності полегшує обробку (множення стає сумою), і це також чисельніше стабільно. Це тому, що величина ймовірностей може бути дуже невеликою. Здійснення перетворення журналу перетворює ці невеликі числа у більші негативні значення, з якими кінцева точна машина може впоратися краще.

— Лука
джерело

4

Як приклад, я часто зустрічаю у своїй роботі ймовірність порядку -40 000. У цьому режимі чисельно неможливо працювати з самою ймовірністю.

— Буде Вузден

3

Тут мінімізація означає зменшення відстані двох розподілів до найнижчого: цільового розподілу Бернуллі та розподіленого результату. Ми вимірюємо відстань двох розподілів, використовуючи дивергенцію Куллбека-Лейблера (також її називають відносною ентропією), і завдяки великій теорії чисел мінімізація розбіжності KL дорівнює мінімізації поперечної ентропії (або багатошарова перехресна ентропія, див. Тут, або двійкова класифікація, див. Тут та тут ).

Таким чином

максимізація ймовірності журналу еквівалентна мінімізації "негативної ймовірності журналу"

можна перекласти на

Максимізація ймовірності журналу еквівалентна мінімізації відстані між двома розподілами, таким чином, еквівалентна мінімізації розбіжності KL, а потім поперечної ентропії.

Я думаю, що це стало досить інтуїтивно зрозумілим.

— Лернер Чжан
джерело

1

Відповідь простіша, ніж ви могли подумати. Це умова, що ми називаємо функцію оптимізації оптимізацією "функцією витрат" або "функцією втрати", і тому ми хочемо їх мінімізувати, а не максимізувати, і, отже, формується негативна ймовірність журналу, а не позитивна ймовірність у вашій слово. Технічно і те й інше правильно. До речі, якщо ми хочемо щось максимізувати, ми зазвичай називаємо це «функцією корисності», а отже, мета - максимізувати їх.

— Ян
джерело