Я хотів би порівняти різницю між одним і тим же словом, згаданим у різних джерелах. Тобто, як автори відрізняються у вживанні неправильно визначених слів, таких як "демократія".
Короткий план був
- Візьміть книги, в яких згадується термін "демократія", як звичайний текст
- У кожній книзі замініть
democracyнаdemocracy_%AuthorName% - Навчіть
word2vecмодель цих книг - Обчисліть відстань між
democracy_AuthorA,democracy_AuthorBта іншими спорідненими згадками про "демократію"
Тож "авторська демократія" кожного автора отримує свій вектор, який використовується для порівняння.
Але здається, що word2vecдля підготовки надійних векторів потрібно набагато більше декількох книг (кожне слово, яке позначається лише у підмножині книг). Офіційна сторінка рекомендує набори даних , включаючи мільярди слів.
Мені просто хотілося запитати, наскільки великим має бути підмножина книг одного автора, щоб зробити такі умовиводи word2vecчи альтернативні інструменти, якщо вони є?
windowСтилі , скільки слів в контексті використовуються для навчання моделі для слова ш