Як розрахувати чистоту?


16

Як аналізуємо кластер, як ми обчислюємо чистоту? Яке рівняння?

Я не шукаю коду, щоб зробити це за мене.

введіть тут опис зображення

Нехай - кластер k, а - клас j.ωkcj

Тож чистота практично точність? схоже, підсумовували кількість справді класифікованого класу за кластером за розміром вибірки.

Джерело рівняння

Питання в тому, яка взаємозв'язок між виходом і входом?

Якщо є по-справжньому позитивні (TP), справді негативні (TN), хибно позитивні (FP), хибно негативні (FN). Чи ?Purity=TPK(TP+TN+FP+FN)


3
Якщо вам просто потрібне швидке визначення: Найпопулярніший пошук у Google за кластером чистоти ** посилань тут, що дає математичне визначення. (** Щонайменше для мене - ваші індивідуальні результати можуть відрізнятися)
Glen_b -Встановіть Моніку

Я не маю поняття, що ви маєте на увазі під «чистотою», але Девід Колкхун використовує «чорний магічний аналіз чистоти серця» як приклад біноміального відбору проб на стор. 111-114 його чудового підручника «Лекції з біостатистики» (1971), який доступний у вигляді безкоштовного PDF-сайту з веб-сайту автора: dcscience.net Навіть якщо це не має значення для вашого питання, це чудова історія.
Майкл Лев

У деревах класифікації деякими функціями для вимірювання домішок є: похибка повторної заміни, індекс джині та ентропія. (Дерева класифікації виконують певну форму кластеризації, тому я думаю, що це має бути актуальним.) Сподіваюся, це допомагає!
Angelorf

Відповіді:


26

У контексті кластерного аналізу чистота є зовнішнім критерієм якості кластера. Це відсоток від загальної кількості об'єктів (точок даних), які були класифіковані правильно, в одиниці діапазону [0..1].

Purity=1Ni=1kmaxj|citj|

де N = кількість об'єктів (точок даних), k = кількість кластерів, ci - кластер у C , а tj - класифікація, що має максимум для кластера ci

Коли ми говоримо "правильно", це означає, що кожен кластер ci ідентифікував групу об'єктів як той самий клас, який вказала основна істина. Ми використовуємо класифікацію підсупутникових ti цих об'єктів як міра присвоєння правильності, однак для цього ми повинні знати , який кластер ci зіставляти який класифікація землі правди ti . Якби це було 100% точним, то кожен ci мав би вказати рівно 1 ti , а насправді наше ciмістить деякі моменти, основна істина яких класифікувала їх як декілька інших класифікацій. Природно, тоді ми можемо побачити, що найвища якість кластеризації буде отримана за допомогою відображення ci to ti яке має найбільшу кількість правильних класифікацій, тобто citi . Саме звідси походить max у рівнянні.

Для обчислення чистоти спочатку створіть свою матрицю плутанини. Це можна зробити, переглянувши кожен кластер ci та підрахувавши кількість об'єктів, які були класифіковані як кожен клас ti .

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

Ви можете також відповісти за ентропію?
MonsterMMORPG

ось моє запитання: stackoverflow.com/questions/35709562/…
MonsterMMORPG

tjmaxj
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.