Я думаю, що я знайшов свою відповідь на кластеризацію kmeans:
Переглянувши вихідний код git, я виявив, що для scikit learn інерція обчислюється як сума квадратичної відстані для кожної точки до її найближчого центру, тобто присвоєного кластеру. ТомуЯ=∑i( д( i , c r ) ) де c r є центроїдом призначеного кластера і г - відстань у квадраті.
Тепер формула статистики розриву передбачає
Wк=∑r = 1к1( 2∗нr)Dr
де
Dr - сума квадратних відстаней між усіма точками кластера
r.
Вводячи + c, - c у формулі відстані у квадраті (c будучи центроїдом кластера r координати), у мене є термін, який відповідає Інерції (як у scikit) + термін, який зникає, якщо кожен cє барицентром кожного кластеру (який, як передбачається, є в кмеанах). Так я здогадуюсьWк насправді є науковою інерцією.
У мене ще два питання:
- Ви вважаєте, чи моє обчислення правильне? (Наприклад, я не знаю, чи це стосується ієрархічної кластеризації.)
- Якщо я правдивий вище, я зашифрував статистику розриву (як різницю інерцій журналу між оцінкою та кластеризацією), і вона погано спрацьовує, особливо на наборі даних райдужної оболонки, хто-небудь пробував це?