Схоже, передбачається примусовий викладач під час навчання (тобто замість того, щоб використовувати здогадку декодера для позиції як вхід до наступної ітерації, він використовує відомий маркер.
Термін "примусовий викладач" мене трохи турбує, тому що це напевно не вистачає ідеї: немає нічого поганого або дивного в подачі наступного відомого маркера для моделі RNN - це буквально єдиний спосіб обчислити . Якщо ви визначаєте розподіл по послідовностях авторегресивно як як це зазвичай робиться, де кожен умовний термін моделюється RNN, то "вимушений викладач" є єдиним істинним процедура, яка правильно збільшує ймовірність журналу. (Я пропускаю написання послідовності кондиціонування вище, тому що вона нічого не змінює.)logP(y1,…,yN)P(y)=∏iP(yi|y<i)x
Враховуючи всюдисущість MLE та відсутність хороших альтернатив, я не думаю, що припускати, що "насильство вчителя" є заперечним.
Тим не менш, з цим, правда, виникають проблеми, а саме модель призначає високу ймовірність для всіх точок даних, але вибірки з цієї моделі не обов'язково вірогідні при істинному розподілі даних (що призводить до «низької якості» вибірки). Вас може зацікавити "Професор Форсинг" (Lamb et al.), Який пом'якшує це за допомогою змагальної процедури навчання, не відмовляючись від MLE.
Це не карає довгих послідовностей. Оскільки ймовірність становить від 1 до N виводу, якщо декодер створив більш довгу послідовність, все після першого N не призведе до втрати.
і
Якщо модель передбачає ранній маркер End-of-String, функція втрати все ще вимагає N кроків - це означає, що ми генеруємо результати на основі непідготовленого "колектора" моделей. Це здається неохайним.
Жодна з цих проблем не виникає під час тренувань. Замість того, щоб мислити авторегресивну модель послідовностей як процедуру для виведення прогнозу, розгляньте це як спосіб обчислити, наскільки ймовірною є дана послідовність. Модель ніколи нічого не прогнозує - ви можете вилучити послідовність або маркер з розподілу, або можете запитати, який найбільш ймовірний наступний жетон, - але вони кардинально відрізняються від прогнозування (і ви не пробите під час тренування або).
Якщо так, чи відбувся прогрес у вдосконаленні функції втрат?
Цілком можуть бути цілі, спеціально розроблені в кожному конкретному випадку для різних завдань моделювання. Однак я б сказав, що MLE все ще є домінуючою - останнім часом модель GPT2, яка домоглася найсучаснішої роботи на широкому спектрі задач моделювання та розуміння природних мов, була підготовлена з нею.