Мішок слів проти векторної космічної моделі?

12

Яка / в чому різниця / і між цими моделями подання тексту: Мішок слів та модель векторного простору?

machine-learning text-mining

Мішок слів - це набір, що представляє унікальні слова у вигляді підрахунку. Термін векторного простору - це розріджений булевий вектор, який також записує положення слова. Я думаю.

— користувач122160

16

Сумка слів і векторна космічна модель стосуються різних аспектів характеристики тексту тексту, таких як документ. Вони добре описані в підручнику "Обробка мови та мови" Юрафського та Мартіна, 2009, у розділі 23.1 про пошук інформації. Більш лаконічне посилання - «Вступ до пошуку інформації» Manning, Raghavan, and Schütze, 2008, у розділі «Векторна модель простору для оцінки».

Сукупність слів стосується того, яку інформацію ви можете отримати з документа (а саме слова уніграма). Векторна космічна модель стосується структури даних для кожного документа (а саме, особливості вектора і терміна пари ваги). Обидва аспекти доповнюють один одного.

Більш конкретно:

Сумка слів : Для даного документа витягуєте лише слова unigram (він же терміни), щоб створити не упорядкований список слів. Ні тегів POS, ні синтаксису, ні семантики, ні позиції, ні діаграм, ні триграм. Тільки самі слова unigram, що створюють купу слів для подання документа. Таким чином: Мішок слів .

Векторна космічна модель : Враховуючи мішок слів, які ви витягли з документа, ви створюєте векторний елемент для документа, де кожна функція - це слово (термін), а значення функції - ваговий термін. Термін вага може бути:

двійкове значення (1 означає, що термін стався в документі, і 0 вказує на те, що він не відбувся);
значення частоти терміна (вказує, скільки разів цей термін відбувся в документі); або
значення TF-IDF (наприклад, невелике число з плаваючою комою, наприклад, 1,23).

Таким чином, весь документ є функційним вектором, і кожен особливий вектор відповідає точці у векторному просторі . Модель цього векторного простору така, що в кожному словнику є вісь для кожного члена, і тому векторний простір є V -вимірним, де V - розмір лексики. Вектор тоді концептуально також повинен бути V -вимірним з особливістю для кожного терміна лексики. Однак, оскільки словниковий запас може бути великим (на порядок V = 100 000s термінів), вектор функції документа зазвичай буде містити лише ті терміни, які мали місце в цьому документі, і опускати умови, які цього не зробили. Такий функціональний вектор вважається рідким .

Приклад векторного подання документа таким чином може виглядати так:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

де цей приклад вектору має ідентифікатор документа (наприклад, 42), мітку основної істини (наприклад, політика) та перелік ознак та значень ознак, що містять пари термінів та термінів частоти. Тут видно, що слово "відсутній" траплялося в цьому документі 2 рази.

— stackoverflowuser2010
джерело

1

Це те, що за допомогою Bag of Words ви присвоюєте частоту слова елементу матриці документа-терміна та в матриці елементів документознавства Vector Space Model досить загальні, якщо операції (крапковий продукт) у векторному просторі мають сенс (ваги tf-idf, для приклад)?

— сьогодні.зуокас
джерело

так, я також думаю, що VSM - це вдосконалена версія мішечок.

— samsamara