Навіщо додати одну обернену частоту документа?


9

У моєму підручнику перелічено idf як деlog(1+Nnt)

  • N : Кількість документів
  • nt : Кількість документів, що містять термінt

Вікіпедія перераховує цю формулу як згладжену версію фактичного . Я розумію: він коливається від до що здається інтуїтивним. Але переходить від до що здається дивним ... Я трохи знаю про вирівнювання мовного моделювання, але там ви додасте щось у чисельнику а також у знаменнику, тому що ви турбуєтесь про масу ймовірностей. Але додавання для мене не має сенсу. Що ми намагаємось досягти тут?log(Nnt)log(NN)=0
log(1+Nnt)log(1+1)
1


пов'язаний, але не дублікат: stats.stackexchange.com/questions/152182/…
Sycorax повідомляє, що

Правильним згладжуванням буде
log(N(1+nt))
ashishpatel.co.in

Відповіді:


7

Як ви побачите в іншому місці, що обговорюється tf-idf, не існує загально узгодженої єдиної формули для обчислення tf-idf або навіть (як у вашому питанні) idf . Мета - досягти однієї з двох цілей: а) уникнути поділу на нуль , як, коли термін не відображається в жодних документах, навіть якщо це не відбудеться в суворому підході «мішок слів», або б) встановити нижню межу, щоб уникнути наведення терміну нульової ваги лише тому, що він відображений у всіх документах.+1

Я фактично ніколи не бачив формулювання , хоча ви згадуєте підручник. Але метою було б встановити нижню межу а не нуль, як ви правильно інтерпретуєте. Я бачив 1 + , який встановлює нижню межу 1. Найбільш часто використовуваним обчисленням видається , як у , Крістофер D, Prabhakar Raghavan, Hinrich Schütze (2008) Вступ до пошуку інформації , Cambridge University Press, p118 або Wikipedia (на основі подібних джерел).log(1+Nnt)log(2)log(Nnt)log(Nnt)

Не має безпосереднього відношення до вашого запиту, але верхня межа не , а скоріше де залежно від вашої формули вирівнювання. Це трапляється для термінів, які відображаються в документах 0 або 1 (знову ж, залежить від того, чи ви згладжуєте щоб визначити його для термінів з нульовою частотою документа - якщо ні, то максимальне значення виникає для термінів, які відображаються лише в одному документі). IDF коли і .k+log(N/s)k,s0,1s1+nt=1N

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.