Я хочу створити систему, яка дасть абзац тексту, зможе його класифікувати та визначити контекст:
- Навчається з генерованих користувачем абзаців тексту (наприклад, коментарі / запитання / відповіді)
- Кожен предмет навчального набору буде позначений тегом. Так, наприклад ("категорія 1", "текст абзац")
- Будуть сотні категорій
Який найкращий підхід для побудови такої системи? Я розглядав декілька різних варіантів, і далі - список можливих рішень. Чи є Word2Vec / NN найкращим рішенням на даний момент?
- Рекурсивна мережа нейронних тензорів, що живиться середніми даними Word2Vec
- RNTN та вектор абзацу ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF використовується в мережі глибоких переконань
- TF-IDF та логістична регресія
- Мішок слів та класифікація Naive Bayes
Чи можете ви уточнити, що таке категорії? Чи потрібно буде вміти обробляти нові категорії та / або невидимі слова? Вимоги щодо рідкісних термінів і невидимих категорій допоможуть розробити систему.
—
NBartley
Дякую @NBartley Невидимі слова також будуть великою ймовірністю. Вхідні парази будуть створеним користувачем вмістом, отже, можливість нових невидимих слів буде дуже високою. Категорії визначалися б, але нам потрібно буде розширювати список категорій з часом. Спасибі
—
Шанкар
Слід також перевірити sense2vec занадто arxiv.org/abs/1511.06388 . Коротше кажучи, це вбудовування слів у поєднанні з позначенням Part-Of-Speech. Повідомляється, що вони зробили вкладення слова більш точними, розбираючи омоніми. Було б цікаво подивитися, чи це також покращує ефективність у класифікаційних завданнях.
—
воск