Мають корпус з понад мільйона документів
Для даного документа потрібно знайти подібні документи, використовуючи косинус, як у векторній космічній моделі
Всі tf були нормалізовані за допомогою збільшеної частоти, щоб запобігти упередженню до більш довгих документів, як у цьому tf-idf :
Попередньо обчислили всі
Має значення для знаменника попередньо розраховані
Таким чином , для даного потрібно набрати більше 1 мільйон
має поріг 0,6 косинуса для подібності
Я можу спостерігати, що для даногоіснує досить вузький діапазондля косинуса 0.6
Наприклад, при одному пошуку схожих на косинус 0.6 і aвід 7.7631 тодідіапазон від 7.0867 до 8.8339
Там, де поза порогом косинусу 0,6діапазон від 0,7223 до 89,3395
Це було зі стандартною нормалізацією документа tf.
Він дивиться наякі не мають шансів бути косинусом 0,6
Нарешті питання:
Для дачіі косинус> = 0,6, як можна визначити діапазонщо є шанс?
Якийчи можна безпечно усунути?
Я також знаю кількість термінів у та якщо є діапазон підрахунку термінів.
Через експериментиі
схоже, є безпечним, але, сподіваємось, існує ряд, який виявився безпечним
Створено кілька тестових випадків з дуже деякими унікальними термінами, деякі не настільки унікальними, а деякі загальними. Звичайно, ви можете взяти найбільш унікальний термін і збільшити цю частоту в порівнянні. Чисельник буде (крапковий добуток) підніматися вгору і так буде || порівнювати || і отримаємо косинус дуже близький до 1.
Вигляд спорідненого, а НЕ питання.
Я також використовую tf-idf для групування документів у групи. Клієнтська база, яку я продаю, звикла майже до дуб-груп. Там я використовую відповідний підхід, і я виглядаю як найменший підрахунок терміна і оцінюю його відносно підрахунку терміну до 3 разів. Таким чином, кількість термінів у 10 виглядає на 10 через 30 (4-9 вже прострілили 10). Тут я можу дозволити собі пропустити одне, якщо воно підхопило іншого. Я 10% готовий, і найбільше співвідношення - 1,8.
Будь ласка, визначте недоліки в цьому аналізі.
Як зазначав AN6U5, у цьому аналізі є недолік.
Це більше не косинус, якщо документ нормалізується за зваженим
рівнем. І як вказував Матвій, також не можна зробити висновок d1⋅d2≤d1⋅d1
Я ще сподіваючись на те , щоб дати мені важко пов'язані , але люди , які , здається, знають цей матеріал кажуть мені , немає ,
я не хочу , щоб змінити це питання так просто ігнорувати це
я буду робити деякий аналіз і можливо опублікувати окреме питання про документ нормалізації
для мета цього питання припустимо, що документ нормалізований на необробленому tf
Вибачте, але мені просто непогано з тим, що коли-небудь розмітка використовується для створення рівнянь.
Отже, у моєму позначенні
|| d1 || = sqrt (сума (w1 x w1))
d1 крапка d2 = сума (w1 X w2)
Припустимо, d1 - коротший документ
. Найкращою d1 крапкою d2, яку можна досягти, є d1 крапка d1,
якщо d1 виходить заміж, 100 paul 20,
і d2 виходить заміж 100 paul 20 peter 1
Нормалізований
d1 одружується 1 Paul 1/5
d2 одружується 1 Paul 1/5 peter 1/100
Очевидно, що одружуватися, і Паул має однаковий idf в обох документах
Найкращий можливий d1 крапка d2 d1 точка d1
Максимально можлива відповідність d1 d1
cos = d1 крапка d1 / || d1 || || d2 ||
квадрат обидві сторони
cos X cos = (d1 точка d1) X (d1 точка d1) / ((d1 точка d1) X (d2 точка d2)) cos X cos = (d1 точка d1) / (d2 точка d2)
візьміть квадрат корінь обох сторін
cos = || d1 || / || d2 ||
є || d2 || не обмежений cos?
Якщо я просто використовую || d2 || > = cos || d1 || і || d2 || <= || d1 || / cos я отримую необхідну обчислювальну швидкість