Чи можемо ми використовувати MLE для оцінки ваги нейронної мережі?


23

Я тільки почав вивчати інформацію про статистику та моделі. В даний час я розумію, що ми використовуємо MLE для оцінки найкращих параметрів для моделі. Однак, коли я намагаюся зрозуміти, як працюють нейронні мережі, здається, що вони зазвичай використовують інший підхід для оцінки параметрів. Чому ми не використовуємо MLE або взагалі можливо використовувати MLE?

Відповіді:


16

Оцінки MLE щодо штучної ваги нейронної мережі (ANN) безумовно можливі ; дійсно, це цілком типово. Для задач класифікації стандартною цільовою функцією є крос-ентропія, яка є такою ж, як і негативна логічність імовірності біноміальної моделі. Для проблем з регресією використовується залишкова квадратна помилка, яка паралельна регресії MLE з OLS.

Але є деякі проблеми з припущенням, що приємні властивості MLE, отримані в класичній статистиці, також мають місце для MLE нейронних мереж.

  1. Існує загальна проблема з оцінкою ANN: існує багато симетричних рішень навіть для одношарових ANN. Повернення знаків ваг для прихованого шару та повернення знаків параметрів активації прихованого шару обидва мають однакову ймовірність. Крім того, ви можете перестановити будь-який з прихованих вузлів, і ці перестановки також мають таку ж ймовірність. Це є наслідком, оскільки ви повинні визнати, що ви відмовляєтесь від ідентифікації. Однак якщо ідентифікація не важлива, то ви можете просто прийняти, що ці альтернативні рішення - це лише відображення та / або перестановки одне одного.

    Це на відміну від класичних звичаїв MLE в статистиці, таких як регресія OLS: проблема OLS є опуклою і строго опуклою, коли матриця дизайну є повною мірою. Сильна опуклість означає, що існує єдиний унікальний мінімізатор.

  2. ANN схильні перевищувати дані при використанні необмеженого рішення. Ваги, як правило, відбігаються від походження до неймовірно великих значень, які недостатньо узагальнюють або прогнозують нові дані з великою точністю. Накладення зменшення ваги або інших методів регуляризації призводить до зменшення оцінки ваги до нуля. Це не обов'язково вирішує питання невизначеності з (1), але це може покращити узагальнення мережі.

  3. Функція втрат - невипуклий, і оптимізація може знайти локально оптимальні рішення, які не є оптимальними в усьому світі . Або, можливо, ці рішення є сідловими точками, де деякі методи оптимізації зупиняються. Результати в цій роботі виявляють, що сучасні методи оцінювання стоять в стороні цього питання.

  4. L1L2


2
Я прошу відрізнятись від того, що ви говорите. Різні локальні мінімуми, що виникають із симетрії, мають однакову якість, тому вам зовсім не доведеться турбуватися про це. Напевно, ви хочете сказати, що ANN не мають опуклих функцій втрат, що робить оптимізацію більш активною і не гарантує пошук глобального оптимуму. Однак останнім часом є досить багато доказів того, що в АНП насправді не так багато питань щодо місцевих мінімумів, а скоріше проблеми сідла. Див., Наприклад, arxiv.org/abs/1412.6544 .
bayerj

11

У класифікаційних проблемах максимізація ймовірності є найпоширенішим способом підготовки нейронної мережі (як керованих, так і непідконтрольних моделей).

На практиці ми, як правило, мінімізуємо негативну ймовірність журналу (еквівалент MLE). Єдине обмеження для використання негативної ймовірності лог - це вихідний рівень, який можна інтерпретувати як розподіл ймовірностей. Для цього зазвичай використовується вихідний шар softmax. Зауважте, що у спільноті нейронних мереж негативні ймовірності логарифів іноді називають перехресною ентропією. Звичайно, можна додавати умови регуляризації (і іноді їх можна інтерпретувати як попередні розподіли за параметрами; в цьому випадку ми шукаємо максимум a posteriori ( MAP )).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.