У контексті кластерного аналізу чистота є зовнішнім критерієм якості кластера. Це відсоток від загальної кількості об'єктів (точок даних), які були класифіковані правильно, в одиниці діапазону [0..1].
Purity=1N∑i=1kmaxj|ci∩tj|
де N = кількість об'єктів (точок даних), k = кількість кластерів, ci - кластер у C , а tj - класифікація, що має максимум для кластера ci
Коли ми говоримо "правильно", це означає, що кожен кластер ci ідентифікував групу об'єктів як той самий клас, який вказала основна істина. Ми використовуємо класифікацію підсупутникових ti цих об'єктів як міра присвоєння правильності, однак для цього ми повинні знати , який кластер ci зіставляти який класифікація землі правди ti . Якби це було 100% точним, то кожен ci мав би вказати рівно 1 ti , а насправді наше ciмістить деякі моменти, основна істина яких класифікувала їх як декілька інших класифікацій. Природно, тоді ми можемо побачити, що найвища якість кластеризації буде отримана за допомогою відображення ci to ti яке має найбільшу кількість правильних класифікацій, тобто ci∩ti . Саме звідси походить max у рівнянні.
Для обчислення чистоти спочатку створіть свою матрицю плутанини. Це можна зробити, переглянувши кожен кластер ci та підрахувавши кількість об'єктів, які були класифіковані як кожен клас ti .
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
ci
Purity = (53 + 60 + 16) / 140 = 0.92142