Текстова класифікація-проблема: Word2Vec / NN найкращий підхід?


10

Я хочу створити систему, яка дасть абзац тексту, зможе його класифікувати та визначити контекст:

  1. Навчається з генерованих користувачем абзаців тексту (наприклад, коментарі / запитання / відповіді)
  2. Кожен предмет навчального набору буде позначений тегом. Так, наприклад ("категорія 1", "текст абзац")
  3. Будуть сотні категорій

Який найкращий підхід для побудови такої системи? Я розглядав декілька різних варіантів, і далі - список можливих рішень. Чи є Word2Vec / NN найкращим рішенням на даний момент?

  1. Рекурсивна мережа нейронних тензорів, що живиться середніми даними Word2Vec
  2. RNTN та вектор абзацу ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. TF-IDF використовується в мережі глибоких переконань
  4. TF-IDF та логістична регресія
  5. Мішок слів та класифікація Naive Bayes

Чи можете ви уточнити, що таке категорії? Чи потрібно буде вміти обробляти нові категорії та / або невидимі слова? Вимоги щодо рідкісних термінів і невидимих ​​категорій допоможуть розробити систему.
NBartley

Дякую @NBartley Невидимі слова також будуть великою ймовірністю. Вхідні парази будуть створеним користувачем вмістом, отже, можливість нових невидимих ​​слів буде дуже високою. Категорії визначалися б, але нам потрібно буде розширювати список категорій з часом. Спасибі
Шанкар

Слід також перевірити sense2vec занадто arxiv.org/abs/1511.06388 . Коротше кажучи, це вбудовування слів у поєднанні з позначенням Part-Of-Speech. Повідомляється, що вони зробили вкладення слова більш точними, розбираючи омоніми. Було б цікаво подивитися, чи це також покращує ефективність у класифікаційних завданнях.
воск

Відповіді:


5

1) Макс-ентропія (логістична регресія) на векторах TFIDF - хороша відправна точка для багатьох завдань класифікації NLP.

2) Word2vec, безумовно, щось, що варто спробувати і порівняти з моделлю 1. Я б запропонував використовувати аромат Doc2Vec для перегляду пропозицій / абзаців.

Квок Ле і Томаш Міколов. Поширені уявлення про вироки та документи. http://arxiv.org/pdf/1405.4053v2.pdf

Gensim (python) має приємну модель Doc2vec.


Дякую @rushimg Якщо категорії тісно пов'язані між собою, тобто параметр тексту, який використовується як вхід, має велику кількість загальних слів, який із двох підходів було б краще зрозуміти контекст і розмежувати їх?
Шанкар

Я використовував би модель Doc2Vec через те, що вона видаляє припущення про сумку слів про модель max-ent. Якщо tf-idf використовуватиметься як функції в max-ent моделі, це також зменшить вплив поширених слів. Я думаю, що випробувати обидва методи та налаштувати їх було б найкращим способом дій.
rushimg
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.