Запитання з тегом «k-means»

k-засоби - це метод розподілу даних на кластери шляхом пошуку заданої кількості засобів, k, st, коли дані призначаються кластерам w / найближче середнє значення, сума кластерів w / i мінімізується

1
Різниця між стандартними та сферичними алгоритмами k-означає
Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів. На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються. У сферичних k-засобах всі вектори нормалізуються, а міра …

2
Як використовувати як бінарні, так і безперервні змінні разом у кластеризації?
Мені потрібно використовувати бінарні змінні (значення 0 і 1) у k-значенні. Але k-означає працює лише з безперервними змінними. Я знаю, що деякі люди до цих пір використовують ці бінарні змінні в k-значенні, ігноруючи той факт, що k-засоби призначені лише для суцільних змінних. Це для мене неприйнятно. Запитання: То який статистично …

5
Процедура кластеризації, коли кожен кластер має рівну кількість балів?
У мене є кілька точок в R pX={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p , і я хочу об'єднати точки так, щоб: Кожен кластер містить рівну кількість елементів . (Припустимо, що кількість кластерів ділить nXXXnnn .) Кожен кластер є «просторово згуртованим» у певному сенсі, як кластери з значень.kkk Легко придумати безліч процедур кластеризації, які задовольняють одну …

3
Визначте різні кластери 1d даних із бази даних
У мене є база даних даних про передачу даних між різними вузлами. Це величезна база даних (майже 40 мільйонів передач). Одним з атрибутів є кількість переданих байтів (нбайт), яка становить від 0 байт до 2 тера байт. Я б хотів кластеризувати nbytes таким чином, що за даними кластерів k деякі …

8
Виконайте K-засоби (або його близькі споріднення), кластеризуючи лише матрицю відстані, а не дані по характеристиках
Я хочу виконати кластеризацію K-засобів на об'єктах, які у мене є, але об'єкти не описуються як точки в просторі, тобто за objects x featuresнабором даних. Однак я в змозі обчислити відстань між будь-якими двома об’єктами (воно засноване на функції подібності). Отже, я розпоряджаюсь матрицею відстані objects x objects. Я раніше …

2
Якщо кластеризація k-засобів є формою моделювання суміші Гаусса, чи можна її використовувати, коли дані не є нормальними?
Я читаю Бішопа про алгоритм ЕМ для GMM та взаємозв'язок між GMM та k-засобами. У цій книзі йдеться про те, що k-засоби - це тверда версія GMM. Мені цікаво, чи означає це, що якщо дані, які я намагаюся кластеризувати, не є гауссовими, я не можу використовувати k-засоби (або, принаймні, непридатні …

4
Кластеризація кореляційної матриці
У мене є кореляційна матриця, яка визначає, як кожен елемент співвідноситься з іншим елементом. Отже, для N елементів я вже маю кореляційну матрицю N * N. Використовуючи цю кореляційну матрицю, як я кластеризую N елементів у M-бункерах, щоб я міг сказати, що Nk-елементи в kth bin поводяться однаково. Прошу допомогти …

2
Доведення конвергенції k-засобів
Для завдання мені було запропоновано надати доказ того, що k-засоби зближуються в обмеженій кількості кроків. Ось що я написав: CCC E ( C )E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Крок 2 позначає крок, який позначає кожну точку даних її найближчим центром кластера, а крок 3 - це крок, на якому центри оновлюються за …

4
Як зрозуміти недоліки ієрархічної кластеризації?
Чи може хтось пояснити плюси та мінуси ієрархічної кластеризації? Чи мають ієрархічні кластери такі ж недоліки, що і K? Які переваги ієрархічної кластеризації перед K означає? Коли ми повинні використовувати засоби K над ієрархічною кластеризацією та навпаки? Відповіді на цю посаду дуже добре пояснюють недоліки k означає. Як зрозуміти недоліки …


3
Чому статистика розривів для k-засобів пропонує один кластер, навіть якщо їх очевидно два?
Я використовую K-засоби для кластеризації своїх даних і шукав спосіб запропонувати "оптимальний" номер кластера. Статистика прогалин, здається, є загальним способом пошуку хорошої кількості кластерів. Чомусь він повертає 1 як оптимальне число кластера, але коли я дивлюся на дані, то очевидно, що є 2 кластери: Ось як я називаю розрив у …


5
Чому k-означає не дає глобального мінімуму?
Я читав, що алгоритм k-означає сходиться лише до локального мінімуму, а не до глобального мінімуму. Чому це? Я логічно можу подумати про те, як ініціалізація могла б вплинути на остаточну кластеризацію, і існує можливість субоптимальної кластеризації, але я не знайшов нічого, що це математично доведе. Крім того, чому k - …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
Чи впливає прокляття розмірності на деякі моделі більше, ніж на інші?
Місця, які я читав про прокляття розмірності, пояснюють це в поєднанні насамперед з kNN та лінійними моделями взагалі. Я регулярно бачу найкращих рейтингів у Kaggle, використовуючи тисячі функцій на наборі даних, які навряд чи мають 100k балів даних. Вони, в основному, використовують бусте дерева та NN, серед інших. Це багато …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.