Довідка щодо НЕР у NLTK

12

Я деякий час працюю в NLTK, використовуючи Python. Проблема, з якою я стикаюсь, полягає в тому, що з моїми спеціальними даними вони не допомагають навчати НЕР в NLTK Вони використовували MaxEnt і навчали його на корпусі ACE. Я багато шукав в Інтернеті, але не зміг знайти жодного способу, який би можна було використати для навчання НРТ НЛТК.

Якщо хтось може надати мені будь-яке посилання / статтю / блог тощо, які можуть направити мене до формату наборів наборів даних, який використовується при навчанні NER НЛТК, щоб я міг підготувати свої набори даних саме в цьому форматі. І якщо мене направлять на будь-яке посилання / статтю / блог тощо, які можуть допомогти мені НАВЧИТИ НЛТК для отримання власних даних.

Це питання, яке широко шукається і найменш відповідає. Може бути корисним для когось у майбутньому, чия робота з NER.

machine-learning python nlp

— Сармад
джерело

Перехресне повідомлення на quora.com/Help-on-training-NLTKs-NER

— Franck Dernoncourt

4

Підготовка моделі, пов'язаної з отриманням інформації , в цілому, а також з ім'ям розпізнавання особи / дозволу (NER) , зокрема, детально описано в главі 7 з NLTK книги , доступні в Інтернеті за такою адресою: Http: //www.nltk .org / книга / ch07.html .

Крім того, я думаю, що ви можете знайти корисну мою відповідь на перехресному веб-сайті. У ній є багато посилань на відповідні джерела на NER та пов'язані з ними теми, а також на різні програмні засоби.

— Олександр Блех
джерело

Вони не згадують, як тренувати модель NER на користувацьких даних, ви можете сказати, як це зробити?

— Хіма Варша

1

@HimaVarsha Я не є експертом у цій галузі. Однак, я думаю, що модель NLTK NER поставляється заздалегідь підготовленою на корпусі conll2000 , отже, в книзі NLTK немає інформації. Перевірте такі ресурси: 1. nltk-trainer.readthedocs.io (швидше за все, що вам потрібно; можливо, розділ Training IOB Chunkers ). 2. sujitpal.blogspot.com/2012/11/… (також може бути корисним). 3. nlp.stanford.edu/software/crf-faq.shtml#a (у випадку, якщо ви використовуєте або вирішите використовувати програмне забезпечення Stanford NER).

— Олександр Блех

Я думаю, що реалізація stanfordcrf вимагає спеціальних даних, але NTLK NER надходить лише заздалегідь підготовленими. Навчальні IOB Chunkers просто каламуть, правда? Або це навіть робить NER?

— Хіма Варша

@HimaVarsha Будь ласка, зверніть більше уваги на поради, які ви отримуєте. Якщо ви уважно прочитали публікацію за посиланням №2 вище, то побачили б, що там код тренує і працює, і модель NER. Я не думаю, що я можу вам допомогти поза порадами, наведеними вище.

— Олександр Блех

3

Чи досить ця стаття? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training

Існує пояснення того, як повинен виглядати корпус.

Ваші дані повинні бути у форматі IOB (слово тег chunktag), щоб вони працювали.
Ерік NNP B-ОСОБА
є VB O
AT B-NP
CEO NN I-NP
IN O
Google NNP B-ORGANIZATION

— MaticDiba
джерело

1

Ідеально було б опублікувати короткий підсумок статті у цій відповіді.

— sheldonkreger

1

Цей підручник мені здається дуже корисним: Повне керівництво зі створення власного розпізнавача іменованих особи з Python Він використовує корпус Гронінгенського банку значень (GMB) для тренування своєї частини НЕР.

Після цього ви можете перевірити цей підручник від тієї самої людини: Навчання системи NER за допомогою великого набору даних Там, де він використовує scikit, навчіться покращувати продуктивність своєї системи.

Нарешті, кілька справді корисних навчальних посібників можна знайти тут: Підручник NLTK У цього хлопця є канал YouTube з великою кількістю підручників з багатьох предметів (ML, NLP, Python ...)

Сподіваюся, це допомагає.

— Іракліс Мутідіс
джерело