7
Навіщо оптимізувати максимальну ймовірність журналу замість ймовірності
У більшості завдань машинного навчання, де можна сформулювати деяку ймовірність яку слід максимально збільшити, ми б насправді оптимізували ймовірність замість ймовірності для деяких параметрів . Наприклад, у навчанні з максимальною вірогідністю, зазвичай це ймовірність журналу. Якщо робити це за допомогою градієнтного методу, це включає чинник:ppplogplogp\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂logp∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial …