НЛП - Чи вісник читів?


16

В NLP існує концепція, Gazetteerяка може бути досить корисною для створення анотацій. Наскільки я розумію:

Газета складається з набору списків, що містять назви організацій, таких як міста, організації, дні тижня тощо. Ці списки використовуються для виявлення зустрічей цих імен у тексті, наприклад, для завдання розпізнавання названої сутності.

Отже, це по суті пошук. Хіба це не обман? Якщо ми використовуємо Gazetteerдля виявлення названих сутностей, то це не так вже й багато Natural Language Processing. В ідеалі я хотів би виявити названі сутності за допомогою NLPметодів. В іншому випадку, як це краще, ніж збірка зразків регулярних виразів?


2
Я б не називав це обманом самим собою, якщо тільки ви не були спеціально розроблені для пошуку не словникового пошуку. Я також не називав би це традиційним NLP, хоча ви ніколи не повинні випускати з уваги значний пробіг, який ви зможете вийти з простого вирішення проблеми.
Кайл.

1
Ви, можливо, можете використовувати його для тренінгу розпізнавача названої сутності. Що буде робити ваш газетник щодо сутностей, що не входять до його складу?
Емре

Я сподівався, що при правильному використанні поз-тегів та іменника ченкінг мені звичайно не знадобиться газетер. це можливо?
AbtPst

2
У промисловості немає такого поняття, як обман. :-) Але в будь-якому випадку, якщо ви хочете "загального підходу", вам слід почати з деяких даних, анотованих вручну, тобто насіння, щоб вивчити контексти, в яких з'являються НЕ, щоб дізнатися більше НУ.
Адам Біттлінгмайер

Відповіді:


15

Газетер або будь-який інший варіант функції навмисно фіксованого розміру здається дуже популярним підходом в наукових роботах, коли у вас є проблеми обмеженого розміру, наприклад, NER у фіксованому корпусі, або POS-теги або щось інше. Я б не вважав це обманом, якщо єдиною особливістю, яку ви будете використовувати, є відповідність Gazetteer.

Однак, коли ви тренуєте будь-яку модель NLP, яка покладається на словник під час навчання, ви можете отримати реальний показник продуктивності у світі нижче, ніж повідомляв би ваш початковий тестування, якщо ви не зможете включити всі цікаві об’єкти до візитника (і чому тоді ви потрібна ця модель?), оскільки ваша навчена модель буде покладатися на функцію в якийсь момент, а у випадку, коли інші функції будуть занадто слабкими або не описовими, нові об'єкти, що цікавлять, не розпізнаються.

Якщо ви використовуєте газетер у своїх моделях, ви повинні переконатися, що ця функція має функцію зустрічного, щоб дозволяти моделі балансувати себе, так що проста відповідність словника не буде єдиною особливістю позитивного класу (і що ще важливіше, газетер повинен співпадають не лише позитивні приклади, але й негативні).

Наприклад, припустимо, що у вас є повний набір нескінченних змін усіх імен осіб, що робить загальну особу NER неактуальною, але тепер ви намагаєтеся вирішити, чи здатний об'єкт, згаданий у тексті, співати. Ви будете покладатися на особливості включення до свого персонального газета, який дасть вам багато помилкових позитивних результатів; тоді ви додасте функцію, орієнтовану на дієслова " Is Subject of verb sing ", і це, ймовірно, дасть помилкові позитиви від усіх видів об'єктів, таких як птахи, ваш животик, коли ви голодні, і п'яний хлопець, який думаєвін може співати (але будьмо чесними, він не може) - але ця дієслова, орієнтована на глагол, буде врівноважуватись вашим персональним газетером, щоб присвоїти позитивний клас «співака» особам, а не тваринам чи будь-яким іншим предметам. Хоча це не вирішує справи п’яного виконавця.


4

Використання списку організацій має мало недоліків:

  • Список закритий
  • Список не є контекстним. Вам потрібен контекст, щоб відрізняти "білий будинок" і "білий будинок".
  • Побудова списків вимагає багато праці
  • Список також може містити помилки.
  • Схоже, що це обман (або в списку не використовується думка про НЛП).

Ви можете впоратися з цими недоліками, рухаючись по запропонованому напрямку @emre і використовуючи список, щоб вивчити класифікатор.

Наприклад, ви можете використовувати лексеми біля сутності та навчитися правити, як "Я живу в X" - це показник місця, а "Я спілкувався з X" - це показник людини. Ви можете грати в цю гру кілька раундів, збільшуючи свій список за допомогою хітів правил і використовуючи новий список, щоб дізнатися більше правила.

Зауважте, що в цьому навчанні ви не будете вводити галасливі дані, тому в більшості випадків навчання має бути таким прямим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.