K-засоби проти онлайн-K-засоби


15

K-засоби - це добре відомий алгоритм кластеризації, але існує також он-лайн варіант такого алгоритму (онлайн-K-засоби). Які плюси і мінуси цих підходів і коли слід віддавати перевагу кожному?

Відповіді:


11

Інтернет-k-засоби (більш відомі як послідовні k-засоби ) та традиційні k-засоби дуже схожі. Різниця полягає в тому, що онлайн-k-засоби дозволяють оновлювати модель по мірі отримання нових даних.

K-засоби в Інтернеті повинні використовуватися, коли ви очікуєте, що дані будуть отримані по одному (або, можливо, шматками). Це дозволяє оновити модель, оскільки ви отримаєте більше інформації про неї. Недолік цього методу полягає в тому, що він залежить від порядку отримання даних ( посилання ).


7

Оригінальна публікація k-означає MacQueen (перша, яка вжила назву "kmeans") - це онлайн-алгоритм.

MacQueen, JB (1967). "Деякі методи класифікації та аналізу багатоваріантних спостережень". Праці 5-го симпозіуму Берклі з математичної статистики та ймовірності 1. University of California Press. С. 281–297

Після присвоєння кожної точки середнє поступово оновлюється за допомогою простої середньозваженої формули (стара середня величина зважена з n, нове спостереження зважується з 1, якщо середнє раніше було n спостережень).

Наскільки я можу сказати, він також мав на увазі один пропуск тільки над даними, хоча це можна тривіально повторювати кілька разів, щоб передати крапки до конвергенції.

MacQueen зазвичай потребує меншої кількості ітерацій, ніж Lloyds для зближення, якщо ваші дані переміщуються (оскільки він оновлює середнє значення швидше!) З упорядкованими даними це може мати проблеми. З іншого боку, це вимагає більше обчислень для кожного об'єкта, тому кожна ітерація займає трохи більше часу (очевидно, додаткові математичні операції).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.