Оцінки MLE щодо штучної ваги нейронної мережі (ANN) безумовно можливі ; дійсно, це цілком типово. Для задач класифікації стандартною цільовою функцією є крос-ентропія, яка є такою ж, як і негативна логічність імовірності біноміальної моделі. Для проблем з регресією використовується залишкова квадратна помилка, яка паралельна регресії MLE з OLS.
Але є деякі проблеми з припущенням, що приємні властивості MLE, отримані в класичній статистиці, також мають місце для MLE нейронних мереж.
Існує загальна проблема з оцінкою ANN: існує багато симетричних рішень навіть для одношарових ANN. Повернення знаків ваг для прихованого шару та повернення знаків параметрів активації прихованого шару обидва мають однакову ймовірність. Крім того, ви можете перестановити будь-який з прихованих вузлів, і ці перестановки також мають таку ж ймовірність. Це є наслідком, оскільки ви повинні визнати, що ви відмовляєтесь від ідентифікації. Однак якщо ідентифікація не важлива, то ви можете просто прийняти, що ці альтернативні рішення - це лише відображення та / або перестановки одне одного.
Це на відміну від класичних звичаїв MLE в статистиці, таких як регресія OLS: проблема OLS є опуклою і строго опуклою, коли матриця дизайну є повною мірою. Сильна опуклість означає, що існує єдиний унікальний мінімізатор.
ANN схильні перевищувати дані при використанні необмеженого рішення. Ваги, як правило, відбігаються від походження до неймовірно великих значень, які недостатньо узагальнюють або прогнозують нові дані з великою точністю. Накладення зменшення ваги або інших методів регуляризації призводить до зменшення оцінки ваги до нуля. Це не обов'язково вирішує питання невизначеності з (1), але це може покращити узагальнення мережі.
Функція втрат - невипуклий, і оптимізація може знайти локально оптимальні рішення, які не є оптимальними в усьому світі . Або, можливо, ці рішення є сідловими точками, де деякі методи оптимізації зупиняються. Результати в цій роботі виявляють, що сучасні методи оцінювання стоять в стороні цього питання.
L1L2