які методи машинного / глибокого навчання / nlp використовуються для класифікації певних слів як імені, мобільного номера, адреси, електронної пошти, штату, округу, міста тощо


9

Я намагаюся створити інтелектуальну модель, яка може сканувати набір слів або рядків і класифікувати їх як імена, мобільні номери, адреси, міста, штати, країни та інші об'єкти за допомогою машинного навчання або глибокого навчання.

Я шукав підходи, але, на жаль, не знайшов жодного підходу. Я намагався вбудовувати мішок із слів моделі та рукавички, щоб передбачити, чи є рядок ім'ям чи містом тощо.

Але мені не вдалося з моделлю мішків слів, і в GloVe є дуже багато імен, які не висвітлені в прикладі вбудовування: - Лорен присутній в Рукавичка, а Лаурена не є

Я знайшов цей пост тут , який мав розумну відповідь , але я не міг наближенням використовувати для вирішення цієї проблеми , крім того факту , що НЛП і SVM були використані для її вирішення.

Будь-які пропозиції вдячні

Спасибі та з повагою, Сай Чаран Адурті.


4
Не відповідь, але це називається іменованим визнанням сутності. Пошук за цими термінами може виявити корисну інформацію.
кбросе

Завдяки @kbrose, розглянемо методики розпізнавання іменованих об'єктів.
Сай Чаран Адурті

Відповіді:


1

Ви можете застосувати грам символів - інтуїтивно, може бути величезна різниця в наборі символів між номером телефону та адресою електронної пошти. а потім передайте векторний грам символів SVM для прогнозування. Ви можете реалізувати це, використовуючи в sklearn, використовуючи наведені нижче екстрактори функцій.

  1. TfIdfVectorizer (analyzer = 'персонаж')

  2. CountVectorizer (Analyzer = 'символ')

Перехресне підтвердження діапазону ngram і слабкі змінні SVM для тонкої настройки вашої моделі.


Дякую! @karthikbharadwaj. Я зараз працюю за допомогою R, загляну в sklearn і побачу, чи працює він ..
Сай Чаран Адурті

@Sai Charan Adurthi - Будь ласка, підкажіть, якщо ви вважаєте це корисним, і прийміть відповіді, якщо ви вважаєте їх корисними.
karthikbharadwaj

звичайно, обов'язково зроблю це, як тільки я перевірю його в Python ...
Сай Чаран Адурті,

0

Застосування загальних категоричних міток до слів зазвичай називається розпізнаванням названих сутностей (NER) .

NER може бути виконано статичними правилами (наприклад, регулярними виразами) або вивченими правилами (наприклад, деревами рішень). Ці правила часто крихкі і не узагальнюють. Умовні випадкові поля (CRF) часто є кращим рішенням, оскільки вони здатні моделювати латентні стани мов. Поточна сучасна ефективність у NER проводиться за допомогою комбінації моделей глибокого навчання .

Stanford названого Entity распознаватель і Spacy пакети для виконання ЯЕРА.


Дякую, доктор Мозговий! .. але я хочу створити модель, яка займає лише одне слово або слово рядків, і передбачити, чи це ім’я, адреса тощо. Я намагався NER, використовуючи openNLP від ​​Apache в R. Я не дуже вдався у цьому. Для цього потрібен абзац слів для використання граматики та частин мови, я хочу мати модель, яка може зрозуміти навіть такі речі, як поштові індекси, поштові індекси та державні коди. Я йду з правильним підходом тут, доктор Мозго?
Сай Чаран Адурті

Не варто думати про наявність єдиної загальної моделі. Ви повинні побудувати модель для кожного типу елементів. Наприклад, більшість поштових індексів можна знайти з регулярним виразом. Також контекст є королем, модель, що надається одним словом, зробить погану роботу, прогнозуючи NER. Краще мати великі розділи тексту.
Брайан Шпірінг

Привіт, @Dr. Мозок, я спробував пакунок text2vec для R, я використав вбудовування Glove Word, щоб перевірити, наскільки схожі слова. Наприклад: у мене є дані про поїзд 1000 рядків з категоріями, як ім'я, місто, штат, країна тощо., Тестові дані з різними значеннями. Я використовував text2vec для побудови TCM для обох поїздів, тестових значень даних, потім підходив модель рукавичок до цих ТКМ і перевіряв подібність кожного слова в тестових даних для тренування даних за категоріями за допомогою функції подібності косинусів. Але я не зміг досягти хорошої точності та її рівномірної змінності кожного разу, коли я генерую моделі рукавичок і перевіряю подібність.
Сай Чаран Адурті

Дякую, доктор Бріан, це працює, якщо я використовую речення, щоб отримати контекст і використовувати NER. Але я хочу зробити це лише за допомогою слів і побачити, чи якась модель може вивчити зразки зі слів.
Сай Чаран Адурті

Привіт, мозок, я використовував Apache Open NLP, щоб використовувати попередньо навчені моделі NER. І так, це працює і на словах.
Сай Чаран Адурті
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.