Яка різниця між RNN на основі слів на основі слів і на основі знаків?


15

Читаючи про генерування тексту за допомогою періодичних нейронних мереж, я помітив, що деякі приклади були реалізовані для генерації тексту слово за словом, а інші - за символом, не фактично вказуючи чому.

Отже, в чому різниця між моделями РНН, котрі пророкують текст кожного слова основи і ті , які пророкують текст в-полукокса основу? Чи потрібна RNN на основі слів більший розмір корпусу? Чи краще узагальнена RNN-генерація? Може, єдина відмінність - це введення подання (однокольорове кодування, вбудовування слів)? Які з них вибрати для генерації тексту?

Відповіді:


15

Ось що я дізнався нещодавно.

Очевидно, що, коли ми говоримо про генерування тексту RNN, ми говоримо про мовні моделі RNN. Коли ми запитуємо про RNN з генерації тексту на основі слова / char , ми запитуємо про мовні моделі RNN на основі слова / char (LM).

Слово на основі ЛМ відображення більш високу точність і низьку вартість обчислень , ніж напівкоксу на основі лейоміом.

Таке зниження продуктивності малоймовірне через труднощі для моделі рівня символів для збору більш тривалої короткочасної пам’яті, оскільки також постійні мережі з довшою короткостроковою пам’яттю (LSTM) краще працюють із введенням на основі слова.

Це пояснюється тим, що на основі шару RNN LM потрібен значно більший прихований шар, щоб успішно моделювати довгострокові залежності, що означає більш високі обчислювальні витрати.

Тому ми можемо сказати це

одна з принципових відмінностей між моделями рівня слів та рівнів символів полягає в кількості параметрів, до яких RNN має отримати доступ під час навчання та тестування. Чим менше вхідний і вихідний шар RNN, тим більшим повинен бути повністю пов'язаний прихований шар, що робить навчання моделі дорогим.

Тим не менш, на основі шару RNN LM краще модельні мови з багатою морфологією, такі як фінська, турецька, російська та ін. Використовувати на основі слів RNN LM для моделювання таких мов досить складно, якщо це можливо взагалі і не рекомендується.

Наведений вище аналіз має сенс особливо, коли ви дивитесь на вихідний текст, сформований за допомогою RNN на основі char :

Здивовані інвестори не збиралися збирати гроші. Я не компанія, що там все цікаво швидко, не треба знімати тих же програмістів.

Незважаючи на те, що простий LM на основі максимальної ймовірності з 13-символьним вікном забезпечує це:

І коли вона зробила багато солідних цеглин. Він укладав їх у купи і тупав їй по ногах. Лікар поставив йому діагноз «кажан». Дівчина та її хлопець попросили її вийти.

Звичайно, я обрав вишневий приклад (насправді більшість прикладів ML LM виглядав краще, ніж будь-який текст, сформований RNN, який я читав до цих пір), і цей крихітний ML LM пройшов навчання на більш простому корпусі, але ви розумієте: пряма умовна ймовірність генерує краще текстів, ніж набагато складніший RNN на основі char .

На основі символів RNN LM можуть імітувати граматично правильні послідовності для широкого діапазону мов, вимагати більшого прихованого шару та обчислювально дорожчі, в той час як LN-файли на основі слова навчаються швидше та генерують більш узгоджені тексти, але навіть ці генеровані тексти далеко не мають фактичного сенсу .


1
Відмінний коментар. Слід додати, що для деяких проблем те чи інше може мати більше сенсу незалежно від обчислювальних проблем. Наприклад, якщо ваша мета полягає у вивченні векторів слів, щоб знайти зв’язки між словами або якщо ви хочете створити текст на основі слово-теми, то вам доведеться перейти з RNN на основі слів. І, навпаки, ймовірно, є проблеми, коли RNN на базі чару - це шлях. Це також залежить від того, що намагається зробити користувач.
Рікардо Крус

Я не зрозумів вашого останнього коментаря: "RNN LM (...), заснований на Char, опадає, коли мова йде про фактичний сенс". Я також не бачив сенсу, що базується на Word, має сенс. Чому ви виділили тут моделі на основі чар?
Рікардо Крус

Я оновив неоднозначне закінчення.
корисні копалини

Чудова відповідь! Дійсно, хтось може легко додати, що це багато що залежить від завдання, що займається, розміру вашого набору даних, мов та рівня попередньої обробки, яку ви готові виконати. Наприклад, для обробки багатших мов морфології та управління словниками (OOV) можна також використовувати словомоделі з лематизацією, розміщенням тегів та додаванням префіксів, суфіксів тощо.
Claude COULOMBE

5

Існує приємний запис про мову, що моделює мільярд слів . Нижче наведено кілька уривків:

Моделі рівня Word мають важливу перевагу перед моделями на рівні символів.
Візьмемо таку послідовність як приклад (цитата Роберта А. Хайнлайна):

Прогрес не досягається ранніми стояками. Це роблять ледачі чоловіки, які намагаються знайти простіші способи щось зробити.

Після токенізації модель рівня слова може розглядати цю послідовність як 22, що містить лексеми. З іншого боку, рівень символів вважатиме цю послідовність такою, що містить 102 лексеми. Ця довша послідовність робить завдання моделі символів складніше, ніж слово модель, оскільки вона повинна враховувати залежності між більшою кількістю лексем протягом більше часових кроків. Інша проблема моделей мови символів полягає в тому, що їм потрібно вивчити правопис на додаток до синтаксису, семантики тощо. У будь-якому випадку, моделі мовних слів зазвичай мають меншу помилку, ніж моделі символів

Основна перевага символів перед моделями мов слів полягає в тому, що вони мають дійсно невеликий словниковий запас. Наприклад, набір даних GBW буде містити приблизно 800 символів порівняно з 800 000 слів (після обрізки низькочастотних лексем). На практиці це означає, що модельні символи потребуватимуть менше пам’яті та мають швидший висновок, ніж їхні аналоги слова. Ще одна перевага полягає в тому, що вони не потребують токенізації як етапу попередньої обробки.


1

На мою думку, RNN, що базуються на персонажах, також працюватимуть краще, але їм потрібно набагато більше даних, ніж моделей, заснованих на словах, і моделей на основі символів потрібно тренуватись набагато довший період часу. Я б сказав, що це скоріше спроба та помилки, а також компроміс між наявними даними та обчислювальною потужністю.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.