Розуміння використання логарифмів у логарифмі TF-IDF

Я читав:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є.

Що я розумію:

iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше.

З цієї точки зору

i D F (S) = \frac{# of Documents}{# of Documents containing S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

Крім того, термін частота може бути правильно описаний як

t f (S, D) = \frac{# of Occurrences of S in document D}{# maximum number of occurrences for any string Q in document D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

Тож тоді міра

i D F (S) \times t f (S, D)

$iDF(S) \times tf(S,D)$

є певним чином пропорційним тому, як часто цей термін з’являється в даному документі, і наскільки унікальним є цей термін для набору документів.

Що я не розумію

Але наведена формула описує це як

(\log (i D F (S))) (\frac{1}{2} + \log (\frac{1}{2} t f (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

Я хочу зрозуміти необхідність логарифмів, описаних у визначенні. Мовляв, навіщо вони там? На який аспект вони наголошують?

— морозніпеї
джерело

Підкреслений аспект полягає в тому, що актуальність терміна або документа не збільшується пропорційно частоті (або документу). Використання підлінійної функції, таким чином, допомагає скинути цей ефект. Для цього також амортизується вплив дуже великих або дуже малих значень (наприклад, дуже рідкісних слів). Нарешті, оскільки більшість людей інтуїтивно сприймає функції скорингу як дещо аддитивну, використовуючи логарифми, зроблять ймовірність різних незалежних термінів від більше схожих на . $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

Як зазначає стаття у Вікіпедії, на яку ви посилаєтесь, обгрунтування TF-IDF досі недостатньо встановлено; це / є евристика, що ми хочемо зробити сувору, а не сувору концепцію, яку ми хочемо перенести в реальний світ. Як згадував @ Аноні-Мусс, як дуже добре читати це питання, це розуміння Робертсона зворотної частоти документів: про теоретичні аргументи для IDF . Це дає широкий огляд усієї основи та намагається обґрунтувати методологію TF-IDF на важливості зважування пошукових термінів.

— usεr11852
джерело

Деякі обґрунтування TF-IDF можна знайти у "Формальному дослідженні евристики пошуку інформації". 2004 р. Fang, Hui та ін ( pdf ).

— Олексій Григорьов

Я думаю, що це краща посилання на виправдання TF-IDF: Robertson, S. (2004). "Розуміння зворотної частоти документів: Теоретичні аргументи для IDF". Журнал документації 60 (5): 503–520.

— Є QUIT - Anonymous-Mousse

Дякую за коментарі, панове (і особлива подяка Олексію за виправлення \log, я постійно їх забуваю); +1 обом. Я бачив папір Робертсона і замислювався над його доданням; це справді добре прочитане, я додам його в основну частину.

— usεr11852

@ Anonymous-Mousse (pdf)

— Морж Кіт

Хочу знати, чому "максимальна кількість зустрічей для будь-якого рядка Q в документі D" використовується замість number of occurrences for all strings in document D. Чому ми хочемо підрахунок найпоширенішого слова замість кількості всіх слів?

— Ксеонкросс