У програмі видобутку тексту одним простим підходом є використання евристичного для створення векторів як компактних розріджених зображень документів. Це добре для серійної установки, де весь корпус відомий априорі, оскільки i d f вимагає весь корпус
де - термін, d - документ, D - корпус документа, а T (не показано) - словник.
Однак зазвичай нові документи надходять з часом. Один із варіантів - продовжувати користуватися існуючим до отримання певної кількості нових документів та перерахувати його. Однак це здається досить неефективним. Хтось знає про схему додаткового оновлення, яка (можливо, приблизно) збігається до значення, якщо всі дані бачились заздалегідь? Або альтернативно, чи є інший захід, який фіксує те саме поняття, але може бути обчислений поступово?
Існує також пов'язане питання про те, чи залишається хорошим показником у часі. Оскільки idf фіксує поняття частоти корпусного слова, можливо, старіші документи в корпусі (скажімо, наприклад, що мій корпус включає понад 100 років журнальних статей), оскільки частота різних слів змінюється з часом. У цьому випадку насправді може бути розумним викидати старі документи, коли надходять нові, фактично використовуючи розсувне вікно i d f . Можливо, можна також зберігати всі попередні вектори i d f, коли обчислюються нові, і тоді, якби ми хотіли отримати документи з скажімо 1920-1930 років, ми могли б використати i d fобчислюється з документів у цьому діапазоні дат. Чи має сенс цей підхід?
Edit: Існує окремий , але пов'язаний з цим питання про словнику . З часом розвиватимуться нові терміни в словнику, які раніше не з'являлися, тому | Т | потрібно буде рости, а значить, і довжина вектора i d f . Схоже , що це не буде проблемою, так як нулі можуть бути додані до старих я д F векторів.