Скільки навчальних даних потрібно word2vec?


10

Я хотів би порівняти різницю між одним і тим же словом, згаданим у різних джерелах. Тобто, як автори відрізняються у вживанні неправильно визначених слів, таких як "демократія".

Короткий план був

  1. Візьміть книги, в яких згадується термін "демократія", як звичайний текст
  2. У кожній книзі замініть democracyнаdemocracy_%AuthorName%
  3. Навчіть word2vecмодель цих книг
  4. Обчисліть відстань між democracy_AuthorA, democracy_AuthorBта іншими спорідненими згадками про "демократію"

Тож "авторська демократія" кожного автора отримує свій вектор, який використовується для порівняння.

Але здається, що word2vecдля підготовки надійних векторів потрібно набагато більше декількох книг (кожне слово, яке позначається лише у підмножині книг). Офіційна сторінка рекомендує набори даних , включаючи мільярди слів.

Мені просто хотілося запитати, наскільки великим має бути підмножина книг одного автора, щоб зробити такі умовиводи word2vecчи альтернативні інструменти, якщо вони є?


1
Чи книги, які ви використовуєте виключно на тему демократії, якщо ні, можливо, ваша метрика відстані не буде поглинена більшими відмінностями між змістом книг? Це побічний ефект, коли ваша проблема знаходиться у дуже великому розмірному просторі та торкається рукою прокляття розмірності. Можливо, лише невелика область тексту навколо цікавого слова допоможе, але це все ще проблема зі значним виміром.
image_doctor

1
Так, це суть цього. тут йдеться з напевно непродуманою метафорою. Уявіть, що розділи книг представлені кольорами. А книга в цілому представлена ​​як суміш усіх кольорів глав. Книга про демократію в західній Європі, ймовірно, закінчиться загальним червонуватим відтінком, як сума її розділів. Якщо ми представляємо туризм блакитним кольором, книга про туризм на Кубі, з єдиною главою про демократію та її вплив на економічний розвиток, мала б сильний відтінок. Тож дві книги виглядали б дуже різними, якщо їх розглядати в цілому.
image_doctor

1
Ось більш доступний спосіб сказати, як би вчений для даних висловив себе як вектори для двох книг, буде далекий відстань у просторі зображень, і тому він виявиться зовсім несхожим. Заздалегідь важко оцінити кількість прикладів, які вам знадобляться, не граючи з даними, але мова є тонкою та шаруватою, тому ви, мабуть, захочете стільки, скільки зможете отримати .... а може й більше. Зрештою, ви не знатимете, поки не спробуєте. Це не конкретна відповідь, але, якщо хтось не направить досвід робити подібну річ, це, мабуть, найкраще, що ви отримаєте.
image_doctor

1
word2vec вже використовує лише "невелику область тексту навколо цікавого слова". windowСтилі , скільки слів в контексті використовуються для навчання моделі для слова ш
jamesmf

1
@politicalscientist Я ще не закінчив цей проект.
Антон Тарасенко

Відповіді:


1

Здається, doc2vec (або вектори абзацу / контексту) може бути правильним рішенням для цієї проблеми.

У двох словах, крім векторів слова, ви додаєте "вектор контексту" (у вашому випадку вбудовування для автора), який використовується для прогнозування центру або контекстних слів.

Це означає, що ви отримаєте користь від усіх даних про "демократію", але також отримаєте вкладку для цього автора, яка в поєднанні повинна дозволяти аналізувати упередженість кожного автора з обмеженими даними про кожного автора.

Можна використовувати реалізацію gensim . Документ включає посилання на вихідні документи.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.