Запитання з тегом «k-means»

k-засоби - це метод розподілу даних на кластери шляхом пошуку заданої кількості засобів, k, st, коли дані призначаються кластерам w / найближче середнє значення, сума кластерів w / i мінімізується

2
Інтерпретація результату кластеризації k-засобів у R
Я використовував kmeansінструкцію R для виконання алгоритму k-означає на наборі даних ірису Андерсона. У мене питання про деякі параметри, які я отримав. Результати: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 У цьому випадку, що означає «Кластер»? Це середнє значення відстаней усіх об'єктів у кластері? Також в …


4
Чи бувають випадки, коли в k-засобів немає оптимального k?
Це було в моїй свідомості принаймні кілька годин. Я намагався знайти оптимальний k для виходу з алгоритму k-означає (з метрикою косинусної схожості ), тому в кінцевому підсумку побудував спотворення як функцію від кількості кластерів. Мій набір даних - це колекція 800 документів у 600-мірному просторі. З того, що я розумію, …

3
Методи ініціалізації кластеризації K-засобів
Мене цікавить сучасний стан вибору початкових насінин (центрів кластерів) для K-засобів. Гуглінг призводить до двох популярних варіантів: випадковий відбір початкових насіння, і, використовуючи техніку відбору KMeans ++: Артур та Васильвіцький 2006 k-засоби ++: Переваги дбайливого висіву насіння Чи є якісь багатообіцяючі методи, про які хтось тут знає, які можуть бути …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Який алгоритм я повинен використовувати для кластеризації величезного бінарного набору даних у декілька категорій?
У мене є велика (650 К рядків * 62 стовпчики) матриця двійкових даних (лише 0-1 записи). Матриця переважно розріджена: заповнено близько 8%. Я хотів би класифікувати його в 5 груп - скажімо, названі від 1 до 5. Я спробував ієрархічну кластеризацію, і вона не змогла впоратися з розміром. Я також …

2
Кластеризація дуже перекошених, порахуйте дані: будь-які пропозиції (перетворення тощо)?
Основна проблема Ось моя основна проблема: я намагаюся згрупувати набір даних, що містить кілька дуже перекошених змінних з підрахунками. Змінні містять багато нулів і тому не дуже інформативні для моєї процедури кластеризації - що, швидше за все, буде алгоритмом k-значень. Тонко, скажете ви, просто перетворіть змінні за допомогою квадратного корінця, …


3
K - означає косинусну схожість проти евклідової відстані (LSA)
Я використовую латентний семантичний аналіз для представлення корпусу документів у просторі нижчих розмірів. Я хочу класифікувати ці документи на дві групи за допомогою k-засобів. Кілька років тому я робив це, використовуючи gensim Python і писав власний алгоритм k-означає. Я визначив центроїди кластера за евклідовою відстані, але потім згрупував кожен документ …

3
Присвоєння міток класу кластерам k-означає
У мене дуже основне питання щодо кластеризації. Після того як я знайшов k кластери з їхніми центроїдами, як мені перейти до інтерпретації класів точок даних, які я кластеризував (присвоюючи значні мітки класу кожному кластеру). Я не кажу про валідацію знайдених кластерів. Чи можна це зробити за допомогою невеликого міченого набору …
10 k-means 

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
К-означає: Скільки ітерацій у практичних ситуаціях?
Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …

2
Різниця між PCA та спектральною кластеризацією для невеликого вибіркового набору булевих ознак
У мене є набір даних з 50 зразків. Кожен зразок складається з 11 (можливо співвідносних) булевих ознак. Мені хотілося б дещо, як візуалізувати ці зразки на двовимірному графіку та перевірити, чи є серед 50-ти зразків кластери / групування. Я спробував наступні два підходи: (a) Запустіть PCA на матриці 50x11 та …

1
Оптимальна кількість компонентів у гауссовій суміші
Отже, отримання «уявлення» про оптимальну кількість кластерів у k-засобах добре зафіксовано. Я знайшов статтю про це в гауссових сумішах, але не впевнений, що я переконаний у цьому, не дуже добре це розумію. Чи існує ... ніжніший спосіб зробити це?

2
Розуміння цього сюжету PCA щодо продажу морозива проти температури
Я беру фіктивні дані про температуру проти продажів морозива і класифікую їх за допомогою K Means (n ​​кластерів = 2), щоб виділити 2 категорії (повністю манекени). Зараз я роблю аналіз основних компонентів за цими даними, і моя мета - зрозуміти, що я бачу. Я знаю, що мета PCA - зменшити …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.