Мішок слів для класифікації тексту: Чому б не просто використовувати частоту слова замість TFIDF?


24

Поширеним підходом до класифікації тексту є підготовка класифікатора від «мішечок слів». Користувач приймає текст для класифікації та підраховує частоти слів у кожному об'єкті з подальшим обрізанням, щоб зберегти отриману матрицю керованого розміру.

Часто я бачу, як користувачі конструюють свій функціональний вектор за допомогою TFIDF. Іншими словами, зазначені вище частоти тексту зменшуються за частотою слів у корпусі. Я бачу, чому TFIDF був би корисним для вибору "найвідмінніших" слів даного документа для, скажімо, показу людському аналітику. Але якщо стосується категоризації тексту за допомогою стандартних контрольованих методик використання МЛ, навіщо турбувати зменшення ваги за частотою документів у корпусі? Чи не сам учень вирішить важливість присвоїти кожному слову / комбінації слів? Буду вдячний за ваші думки щодо того, яку цінність додає IDF, якщо така є.

Відповіді:


29

Відповідь дуже проста: TF-IDF може досягти кращих результатів, ніж прості частотні частоти в поєднанні з деякими контрольованими методами.

Канонічний приклад використання косинусної подібності як вимірювання подібності між документами. Приймаючи косинус кута між векторним представленням документів TF-IDF, можна успішно отримати відповідні аналогічні документи з більшою точністю, ніж лише TF.

Це пояснюється тим, що IDF зменшує вагу, надану звичайним словам, і виділяє незвичайні слова в документі. Більшість статей не стосуються страусів, тому новинна стаття, що містить "страуса", є незвичною, і ми хотіли б це знати, намагаючись знайти схожі документи.

Але якщо стосується категоризації тексту за допомогою стандартних контрольованих методик використання МЛ, навіщо турбувати зменшення ваги за частотою документів у корпусі? Чи не сам учень вирішить важливість присвоїти кожному слову / комбінації слів?

хухуу), тоді ми значно полегшили завдання собі і своїм бідним, перевантаженим комп’ютерам! Я думаю, що це недооцінений компонент галузі - люди витрачають багато часу на вивчення та розгляд алгоритмів, оскільки вони не залежать від домену, але знаючи більше про ваші дані та проблему, яку ви намагаєтеся вирішити, можна запропонувати шляхи до вдосконалений збір даних або подання даних, які роблять завдання набагато простішим - і настільки простим, що модель вишуканої витонченості не потрібна.

Ряд ресурсів можна знайти тут , який я відтворюю для зручності.

  • К. Спарк Джонс. "Статистичне тлумачення специфіки терміна та його застосування у пошуку". Журнал документації, 28 (1). 1972 рік.

  • Г. Салтон та Едвард Фокс та Ву Гаррі Ву. Msgstr "Розширене булеве пошук інформації". Зв'язок ОСББ, 26 (11). 1983 рік.

  • Г. Салтон та М. Дж. Макгілл. "Вступ до сучасного пошуку інформації". 1983 рік

  • Г. Салтон та К. Баклі. "Терміно-зважувальні підходи в автоматичному пошуку тексту". Обробка та управління інформацією, 24 (5). 1988 рік.

  • Х. Ву та Р. Лук, К. Вонг і К. Квок. "Інтерпретація ваг терміна TF-IDF як прийняття відповідних рішень". Угоди ACM на інформаційних системах, 26 (3). 2008 рік.


Дякуємо за замітку @ user777! Оцініть це. Я дивлюся на ці статті. Чи існують загальні класи алгоритмів, від яких ми очікуємо перевагу від TFIDF порівняно з просто TF?
shf8888

@ shf8888 Я не впевнений, чи є загальні класи, де краще. Це можливо! Наскільки мені відомо, перший рефлекс того, хто працює над завданням NLP, - це спробувати TF, а потім TF-IDF як базові методи, перш ніж перейти до більш складної моделі. Таким чином, ви зможете кількісно оцінити, наскільки підвищену продуктивність ви купуєте за збільшення зусиль, витрачених за допомогою все більш складних моделей.
Sycorax каже, що повернемо Моніку

Дуже дякую! Ну, відповідь, що "емпірично TFIDF може забезпечити підвищення продуктивності над TF за допомогою деяких алгоритмів" (якщо ви не заперечуєте проти мого резюме в одному реченні), безумовно, хороший з моєї точки зору. Дякую за довідку.
shf8888

2

У типовому випадку у вас може бути набагато більше документів у вашому корпусі, ніж мічені документи. Це означає, що IDF можна обчислити набагато точніше і повністю при використанні всього корпусу.

Далі розглянемо випадок, коли корпус, до якого ти можеш дістати свої руки, позначений усіма або підмножина з мітками "досить велика". У цьому випадку кількість ітерацій, необхідних для навчання, може бути меншою при використанні TfIDF, оскільки алгоритму навчання не потрібно було б вивчати стільки.

Нарешті, у цьому ж випадку ви також можете вказати лише tf або tf та idf окремо (або навіть включити tfidf також). Я думаю, що це може призвести до кращих результатів, наприклад, при використанні вдосконаленої функції ядра.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.