Яка / в чому різниця / і між цими моделями подання тексту: Мішок слів та модель векторного простору?
Яка / в чому різниця / і між цими моделями подання тексту: Мішок слів та модель векторного простору?
Відповіді:
Сумка слів і векторна космічна модель стосуються різних аспектів характеристики тексту тексту, таких як документ. Вони добре описані в підручнику "Обробка мови та мови" Юрафського та Мартіна, 2009, у розділі 23.1 про пошук інформації. Більш лаконічне посилання - «Вступ до пошуку інформації» Manning, Raghavan, and Schütze, 2008, у розділі «Векторна модель простору для оцінки».
Сукупність слів стосується того, яку інформацію ви можете отримати з документа (а саме слова уніграма). Векторна космічна модель стосується структури даних для кожного документа (а саме, особливості вектора і терміна пари ваги). Обидва аспекти доповнюють один одного.
Більш конкретно:
Сумка слів : Для даного документа витягуєте лише слова unigram (він же терміни), щоб створити не упорядкований список слів. Ні тегів POS, ні синтаксису, ні семантики, ні позиції, ні діаграм, ні триграм. Тільки самі слова unigram, що створюють купу слів для подання документа. Таким чином: Мішок слів .
Векторна космічна модель : Враховуючи мішок слів, які ви витягли з документа, ви створюєте векторний елемент для документа, де кожна функція - це слово (термін), а значення функції - ваговий термін. Термін вага може бути:
Таким чином, весь документ є функційним вектором, і кожен особливий вектор відповідає точці у векторному просторі . Модель цього векторного простору така, що в кожному словнику є вісь для кожного члена, і тому векторний простір є V -вимірним, де V - розмір лексики. Вектор тоді концептуально також повинен бути V -вимірним з особливістю для кожного терміна лексики. Однак, оскільки словниковий запас може бути великим (на порядок V = 100 000s термінів), вектор функції документа зазвичай буде містити лише ті терміни, які мали місце в цьому документі, і опускати умови, які цього не зробили. Такий функціональний вектор вважається рідким .
Приклад векторного подання документа таким чином може виглядати так:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
де цей приклад вектору має ідентифікатор документа (наприклад, 42), мітку основної істини (наприклад, політика) та перелік ознак та значень ознак, що містять пари термінів та термінів частоти. Тут видно, що слово "відсутній" траплялося в цьому документі 2 рази.
Це те, що за допомогою Bag of Words ви присвоюєте частоту слова елементу матриці документа-терміна та в матриці елементів документознавства Vector Space Model досить загальні, якщо операції (крапковий продукт) у векторному просторі мають сенс (ваги tf-idf, для приклад)?