Запитання з тегом «k-means»

k-засоби - це метод розподілу даних на кластери шляхом пошуку заданої кількості засобів, k, st, коли дані призначаються кластерам w / найближче середнє значення, сума кластерів w / i мінімізується

5
Як зрозуміти недоліки К-засобів
K-засоби - це широко застосовуваний метод кластерного аналізу. Наскільки я розумію, цей метод НЕ вимагає жодних припущень, тобто дайте мені набір даних та заздалегідь задане число кластерів, k, і я просто застосую цей алгоритм, який мінімізує суму помилок у квадраті (SSE), кластер всередині кластеру помилка. Тож k-засоби є по суті …


6
Як сказати, чи достатньо "кластеризованих" даних для алгоритмів кластеризації для отримання значущих результатів?
Як ви могли б знати, якщо ваші (високомірні) дані демонструють достатню кластеризацію, щоб результати від kmeans або іншого алгоритму кластеризації насправді мали значення? Зокрема, для алгоритму k-означає, на скільки має бути зменшення дисперсії всередині кластера, щоб фактичні результати кластеризації були значимими (а не помилковими)? Чи має бути кластеризація очевидною, коли …

3
Як створити гарний графік результатів кластерного аналізу k-означає?
Я використовую R для кластеризації K-засобів. Я використовую 14 змінних для запуску K-засобів Який досить спосіб побудувати результати K-засобів? Чи існують якісь реалізації? Чи має 14 змінних ускладнення побудови результатів? Я знайшов щось під назвою GGcluster, яке виглядає круто, але воно ще в розробці. Я також читав щось про картографування …

6
Кластеризація на виході t-SNE
У мене є додаток, де було б зручно кластерувати шумний набір даних, перш ніж шукати ефекти підгруп у кластерах. Я спершу подивився на PCA, але для отримання 90% варіабельності потрібно ~ 30 компонентів, тому кластеризація лише на декількох комп'ютерах викине багато інформації. Потім я спробував t-SNE (вперше), який надає мені …

6
Чому алгоритм кластеризації k-означає використовує тільки евклідову метрику відстані?
Чи є конкретна мета з точки зору ефективності чи функціональності, чому алгоритм k-засобів не використовує, наприклад, подібність косинуса (dis) як метрику відстані, а може використовувати лише евклідову норму? Загалом, чи відповідає метод К-засобів та чи буде правильним, якщо розглядаються чи використовуються інші відстані, ніж Евклідова? [Доповнення від @ttnphns. Питання двозначне. …

5
Яке відношення між кластеризацією k-засобів та PCA?
Загальна практика застосовувати PCA (аналіз основних компонентів) перед алгоритмом кластеризації (наприклад, k-засоби). Вважається, що це покращує результати кластеризації на практиці (зниження шуму). Однак мене цікавить порівняльне та поглиблене вивчення взаємозв'язку PCA та k-засобів. Наприклад, Кріс Дінг та Xiaofeng He, 2004 р., K-означає Кластеризація за допомогою аналізу основних компонентів, показали, що …

10
Як визначитися з правильною кількістю кластерів?
Ми знаходимо центри кластерів і призначаємо точки k різним бункерам кластерів в кластеризації k-означає, що є дуже відомим алгоритмом і знаходиться майже в кожному пакеті машинного навчання в мережі. Але відсутнім і найважливішим на мою думку є вибір правильного k. Яке найкраще значення для цього? І що мається на увазі …

3
Кластеризація K-Means та EM: як вони пов'язані?
Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне: k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні. Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший …


5
Чи важливо масштабувати дані перед кластеризацією?
Я знайшов цей підручник , який говорить про те, що вам слід запустити функцію масштабування на функції перед кластеризацією (я вважаю, що вона перетворює дані в z-бали). Мені цікаво, чи потрібно це? Я запитую в основному тому, що є приємний момент ліктя, коли я не масштабую дані, але він зникає, …

5
Кластеризація набору даних як дискретних, так і безперервних змінних
У мене є набір даних X з 10 вимірами, 4 з яких - дискретні значення. Насправді ці 4 дискретні змінні є порядковими, тобто більш високе значення означає більш високу / кращу семантичну. 2 з цих дискретних змінних є категоричними в тому сенсі, що для кожної з цих змінних відстань, наприклад, …

1
Як PCA допоможе в аналізі кластеризації k-означає?
Передумови : Я хочу класифікувати житлові райони міста на групи на основі їх соціально-економічних характеристик, включаючи щільність житлових одиниць, густоту населення, площу зелених насаджень, ціну житла, кількість шкіл / медичних центрів / дитсадок тощо. Хочу зрозуміти, на скільки різних груп можна розділити житлові райони та які їх унікальні характеристики. Ця …

3
Кластеризація довгого списку рядків (слів) у групи подібності
У мене є така проблема: у мене дуже довгий перелік слів, можливо, імен, прізвищ тощо. Мені потрібно згрупувати цей список слів, щоб подібні слова, наприклад слова з аналогічною відстані редагування (Левенштейн), з’явились у той же кластер. Наприклад, "алгоритм" і "алогритм" повинні мати високі шанси відобразитися в одному кластері. Я добре …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.