Я намагаюся розібратися, як обчислити індекс Rand алгоритму кластера, але я застряг у тому, як обчислити справжній і хибний негатив.
На даний момент я використовую приклад із книги «Вступ до пошуку інформації» (Manning, Raghavan & Schütze, 2009). На сторінці 359 вони розповідають про те, як обчислити індекс Rand. У цьому прикладі вони використовують три кластери, а кластери містять наступні об'єкти.
- аааааб
- abbbbc
- aaccc
Я замінюю об'єкт (початкові знаки на літери, але ідея та кількість рахунків залишаються однаковими). Я дам точні слова з книги, щоб побачити, про що вони говорять:
Спочатку обчислюємо TP + FP. Три кластери містять відповідно 6, 6 та 5 балів, тому загальна кількість "позитивних" або пар документів, що знаходяться в одному кластері, становить:
TP + FP = + + = 15 + 15+ 10 = 40
З них пари в кластері 1, b пари в кластері 2, c пари в кластері 3, а пари в кластері 3 - справжні позитиви:
TP = + + + = 10 + 6 + 3 + 1 = 20
Таким чином, FP = 40 - 20 = 20.
Доки тут розрахунки зрозумілі, і якщо я беру інші приклади, я отримую ті самі результати, але коли я хочу обчислити помилковий негативний та справжній негативний Меннінг та ін. констатуйте наступне:
FN і TN обчислюються аналогічно, що призводить до отримання наступної таблиці надзвичайних ситуацій:
Таблиця надзвичайних ситуацій виглядає так:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Речення: "FN і TN обчислюються аналогічно" для мого не зрозуміло, і я не розумію, які числа мені потрібні для обчислення TN і FN. Я можу обчислити праву частину таблиці, виконавши наступне:
TP + FP + FN + TN = = = 136
Джерело: http://en.wikipedia.org/wiki/Rand_index
Таким чином, FN + TN = 136 - TP + FP = 136 - 40 = 96, але це не дуже допомагає моєму з'ясувати, як обчислити змінні окремо. Особливо, коли автори кажуть: "FN і TN обчислюються аналогічно". Я не бачу як. Також коли я переглядаю інші приклади, вони обчислюють кожну клітинку таблиці непередбачених ситуацій, переглядаючи кожну пару.
Наприклад: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Перше моє запитання, засноване на прикладі Manning et al (2009), чи можна обчислити TN та FN, якщо ви знаєте лише TP & NP? І якщо так, то як виглядає подібний розрахунок на основі наведеного прикладу?