Я хотів би порівняти різницю між одним і тим же словом, згаданим у різних джерелах. Тобто, як автори відрізняються у вживанні неправильно визначених слів, таких як "демократія".
Короткий план був
- Візьміть книги, в яких згадується термін "демократія", як звичайний текст
- У кожній книзі замініть
democracy
наdemocracy_%AuthorName%
- Навчіть
word2vec
модель цих книг - Обчисліть відстань між
democracy_AuthorA
,democracy_AuthorB
та іншими спорідненими згадками про "демократію"
Тож "авторська демократія" кожного автора отримує свій вектор, який використовується для порівняння.
Але здається, що word2vec
для підготовки надійних векторів потрібно набагато більше декількох книг (кожне слово, яке позначається лише у підмножині книг). Офіційна сторінка рекомендує набори даних , включаючи мільярди слів.
Мені просто хотілося запитати, наскільки великим має бути підмножина книг одного автора, щоб зробити такі умовиводи word2vec
чи альтернативні інструменти, якщо вони є?
window
Стилі , скільки слів в контексті використовуються для навчання моделі для слова ш