Ось що я дізнався нещодавно.
Очевидно, що, коли ми говоримо про генерування тексту RNN, ми говоримо про мовні моделі RNN. Коли ми запитуємо про RNN з генерації тексту на основі слова / char , ми запитуємо про мовні моделі RNN на основі слова / char (LM).
Слово на основі ЛМ відображення більш високу точність і низьку вартість обчислень , ніж напівкоксу на основі лейоміом.
Таке зниження продуктивності малоймовірне через труднощі для моделі рівня символів для збору більш тривалої короткочасної пам’яті, оскільки також постійні мережі з довшою короткостроковою пам’яттю (LSTM) краще працюють із введенням на основі слова.
Це пояснюється тим, що на основі шару RNN LM потрібен значно більший прихований шар, щоб успішно моделювати довгострокові залежності, що означає більш високі обчислювальні витрати.
Тому ми можемо сказати це
одна з принципових відмінностей між моделями рівня слів та рівнів символів полягає в кількості параметрів, до яких RNN має отримати доступ під час навчання та тестування. Чим менше вхідний і вихідний шар RNN, тим більшим повинен бути повністю пов'язаний прихований шар, що робить навчання моделі дорогим.
Тим не менш, на основі шару RNN LM краще модельні мови з багатою морфологією, такі як фінська, турецька, російська та ін. Використовувати на основі слів RNN LM для моделювання таких мов досить складно, якщо це можливо взагалі і не рекомендується.
Наведений вище аналіз має сенс особливо, коли ви дивитесь на вихідний текст, сформований за допомогою RNN на основі char :
Здивовані інвестори не збиралися збирати гроші. Я не компанія, що там все цікаво швидко, не треба знімати тих же програмістів.
Незважаючи на те, що простий LM на основі максимальної ймовірності з 13-символьним вікном забезпечує це:
І коли вона зробила багато солідних цеглин. Він укладав їх у купи і тупав їй по ногах. Лікар поставив йому діагноз «кажан». Дівчина та її хлопець попросили її вийти.
Звичайно, я обрав вишневий приклад (насправді більшість прикладів ML LM виглядав краще, ніж будь-який текст, сформований RNN, який я читав до цих пір), і цей крихітний ML LM пройшов навчання на більш простому корпусі, але ви розумієте: пряма умовна ймовірність генерує краще текстів, ніж набагато складніший RNN на основі char .
На основі символів RNN LM можуть імітувати граматично правильні послідовності для широкого діапазону мов, вимагати більшого прихованого шару та обчислювально дорожчі, в той час як LN-файли на основі слова навчаються швидше та генерують більш узгоджені тексти, але навіть ці генеровані тексти далеко не мають фактичного сенсу .