При яких n-грамах стають контрпродуктивними?

13

Роблячи природну мову, можна взяти корпус і оцінити ймовірність появи наступного слова в послідовності n. n зазвичай вибирається як 2 або 3 (біграми і триграми).

Чи відомий момент, коли відстеження даних для n-го ланцюга стає контрпродуктивним, враховуючи кількість часу, яке потрібно для класифікації певного корпусу один раз на цьому рівні? Або враховуючи кількість часу, яке знадобиться для пошуку ймовірностей зі словника (структура даних)?

text-mining natural-language

— Джонска
джерело

пов'язана з цією іншою темою про прокляття розмірності

— Антуан

2

Чи відомий момент, коли відстеження даних для n-го ланцюга стає контрпродуктивним, враховуючи кількість часу, яке потрібно для класифікації певного корпусу один раз на цьому рівні?

Вам слід шукати здивування в порівнянні з n-грам розмірами таблиць або графіків .

Приклади:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.myshared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

Здивування залежить від вашої мовної моделі, розміру n-грамів та набору даних. Як завжди, існує якість компромісу між якістю мовної моделі та тим, як триває її запуск. На сьогодні найкращі мовні моделі базуються на нейронних мережах, тому вибір розміру n-грамів не викликає особливих проблем (але тоді вам потрібно вибрати розмір (-и) фільтра, якщо ви використовуєте CNN, серед інших гіперпараметрів ...).

— Франк Дернонкур
джерело

12

Ваша міра "зустрічної продуктивності" може бути довільною - наприклад. з великою кількістю швидкої пам’яті вона може бути оброблена швидше (розумніше).

Сказавши це, експоненціальне зростання наступає на це, і з моїх власних спостережень, здається, це близько 3-4 позначок. (Я не бачив жодних конкретних досліджень).

Триграми мають перевагу перед біграмами, але вона невелика. Я ніколи не реалізовував 4-грамову, але поліпшення буде значно меншим. Ймовірно, схожий порядок зменшення. Напр. якщо триграми покращують речі на 10% за біграми, то розумною оцінкою для 4 грамів може бути 1% покращення порівняно з триграмами.

Однак справжнім вбивцею є пам’ять і розбавлення числових цифр. Маючи в своєму розпорядженні унікальних словосполучень, тоді для моделі біграму потрібно значень; для триграмової моделі знадобиться ; і на 4 грами знадобиться . Тепер добре, це будуть рідкісні масиви, але ви отримаєте картину. Відбувається експоненціальне зростання кількості значень, і ймовірності значно зменшуються через зменшення підрахунку частоти. Різниця між 0 або 1 спостереженням стає набагато важливішою, але частотні спостереження за окремими 4-грамовими знизями зменшуються. $10,000$ $10000^2$ $10000^3$ $10000^4$

Вам буде потрібно величезний корпус для компенсації ефекту розрідження, але Закон Зіпфа говорить, що величезний корпус також повинен мати ще більше унікальних слів ...

Я припускаю, що саме тому ми бачимо безліч моделей, реалізацій та демонстрацій біграм і триграм; але немає повністю працюючих 4-грамових прикладів.

— winwaed
джерело

2

Гарне резюме. Сторінки 48-53 ("тривалий цинічний діатриб") наступного документу містять докладніші відомості (цей документ містить деякі результати для n-грамів вищого порядку) research.microsoft.com/~joshuago/longcombine.pdf

— Євген

2

Посилання мертва. Ось повна довідка та посилання на версію arXiv: Джошуа Т. Гудман (2001). Трохи прогресу в мовному моделюванні: розширена версія. Microsoft Research: Редмонд, штат Вашингтон (США). Технічний звіт MSR-TR-2001-72.

— scozy