Я читав:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є.
Що я розумію:
iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше.
З цієї точки зору
Крім того, термін частота може бути правильно описаний як
Тож тоді міра
є певним чином пропорційним тому, як часто цей термін з’являється в даному документі, і наскільки унікальним є цей термін для набору документів.
Що я не розумію
Але наведена формула описує це як
Я хочу зрозуміти необхідність логарифмів, описаних у визначенні. Мовляв, навіщо вони там? На який аспект вони наголошують?