Це було в моїй свідомості принаймні кілька годин. Я намагався знайти оптимальний k для виходу з алгоритму k-означає (з метрикою косинусної схожості ), тому в кінцевому підсумку побудував спотворення як функцію від кількості кластерів. Мій набір даних - це колекція 800 документів у 600-мірному просторі.
З того, що я розумію, знаходження точки коліна або точки ліктьового суглоба на цій кривій має сказати мені хоча б приблизно кількість кластерів, які мені потрібні для внесення даних. Я кладу графік нижче. Точка, в якій намальована червона вертикальна лінія, була отримана за допомогою максимального другого тесту на похідну . Зробивши все це, я застряг у чомусь набагато простішому: що цей графік розповідає мені про набір даних?
Чи говорить мені, що не варто кластеризуватись і що в моїх документах немає структури, або що мені потрібно встановити дуже високий k? Хоча одна дивна річ - це те, що навіть при низькому k, я бачу, як подібні документи складаються разом, тому я не знаю, чому я отримую цю криву. Будь-які думки?
terms x document
отриманим після виконання сингулярного вектора розкладання. Будь ласка, виправте мене, якщо я помиляюся.