Відповідь дуже проста: TF-IDF може досягти кращих результатів, ніж прості частотні частоти в поєднанні з деякими контрольованими методами.
Канонічний приклад використання косинусної подібності як вимірювання подібності між документами. Приймаючи косинус кута між векторним представленням документів TF-IDF, можна успішно отримати відповідні аналогічні документи з більшою точністю, ніж лише TF.
Це пояснюється тим, що IDF зменшує вагу, надану звичайним словам, і виділяє незвичайні слова в документі. Більшість статей не стосуються страусів, тому новинна стаття, що містить "страуса", є незвичною, і ми хотіли б це знати, намагаючись знайти схожі документи.
Але якщо стосується категоризації тексту за допомогою стандартних контрольованих методик використання МЛ, навіщо турбувати зменшення ваги за частотою документів у корпусі? Чи не сам учень вирішить важливість присвоїти кожному слову / комбінації слів?
хухуу), тоді ми значно полегшили завдання собі і своїм бідним, перевантаженим комп’ютерам! Я думаю, що це недооцінений компонент галузі - люди витрачають багато часу на вивчення та розгляд алгоритмів, оскільки вони не залежать від домену, але знаючи більше про ваші дані та проблему, яку ви намагаєтеся вирішити, можна запропонувати шляхи до вдосконалений збір даних або подання даних, які роблять завдання набагато простішим - і настільки простим, що модель вишуканої витонченості не потрібна.
Ряд ресурсів можна знайти тут , який я відтворюю для зручності.
К. Спарк Джонс. "Статистичне тлумачення специфіки терміна та його застосування у пошуку". Журнал документації, 28 (1). 1972 рік.
Г. Салтон та Едвард Фокс та Ву Гаррі Ву. Msgstr "Розширене булеве пошук інформації". Зв'язок ОСББ, 26 (11). 1983 рік.
Г. Салтон та М. Дж. Макгілл. "Вступ до сучасного пошуку інформації". 1983 рік
Г. Салтон та К. Баклі. "Терміно-зважувальні підходи в автоматичному пошуку тексту". Обробка та управління інформацією, 24 (5). 1988 рік.
Х. Ву та Р. Лук, К. Вонг і К. Квок. "Інтерпретація ваг терміна TF-IDF як прийняття відповідних рішень". Угоди ACM на інформаційних системах, 26 (3). 2008 рік.