Це питання мене спантеличувало вже давно. Я розумію використання 'log' для максимізації ймовірності, тому не запитую про «log».
Моє запитання таке: оскільки максимізація ймовірності журналу рівнозначна мінімізації "негативної ймовірності журналу" (NLL), чому ми винайшли цю NLL? Чому ми не використовуємо "позитивну ймовірність" весь час? За яких обставин надається перевага NLL?
Тут я знайшов невелике пояснення. https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/ , і, здається, пояснює очевидну еквівалентність у глибині, але не вирішує мою плутанину.
Будь-яке пояснення буде вдячне.