Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

5
Кластеризація набору даних як дискретних, так і безперервних змінних
У мене є набір даних X з 10 вимірами, 4 з яких - дискретні значення. Насправді ці 4 дискретні змінні є порядковими, тобто більш високе значення означає більш високу / кращу семантичну. 2 з цих дискретних змінних є категоричними в тому сенсі, що для кожної з цих змінних відстань, наприклад, …

2
Вибір правильного методу зв'язку для ієрархічної кластеризації
Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery. Мій процес такий: Отримайте останні 1000 публікацій в / r / polit Зберіть всі коментарі Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції) Обчисліть матрицю …

1
Як PCA допоможе в аналізі кластеризації k-означає?
Передумови : Я хочу класифікувати житлові райони міста на групи на основі їх соціально-економічних характеристик, включаючи щільність житлових одиниць, густоту населення, площу зелених насаджень, ціну житла, кількість шкіл / медичних центрів / дитсадок тощо. Хочу зрозуміти, на скільки різних груп можна розділити житлові райони та які їх унікальні характеристики. Ця …

3
Які критерії зупинки для агломеративної ієрархічної кластеризації використовуються на практиці?
Я знайшов велику літературу, яка пропонує всілякі критерії (наприклад, Glenn et al. 1985 (pdf) та Jung et al. 2002 (pdf)). Однак більшість із них не так просто здійснити (принаймні, з моєї точки зору). Я використовую scipy.cluster.hierarchy для отримання ієрархії кластерів, і зараз я намагаюся вирішити, як з цього формувати плоскі …
32 clustering 

3
Кластеризація довгого списку рядків (слів) у групи подібності
У мене є така проблема: у мене дуже довгий перелік слів, можливо, імен, прізвищ тощо. Мені потрібно згрупувати цей список слів, щоб подібні слова, наприклад слова з аналогічною відстані редагування (Левенштейн), з’явились у той же кластер. Наприклад, "алгоритм" і "алогритм" повинні мати високі шанси відобразитися в одному кластері. Я добре …

3
Аналіз латентного класу проти кластерного аналізу - відмінності у умовиводах?
Які відмінності у висновках можна зробити за допомогою латентного аналізу класів (LCA) та кластерного аналізу? Чи правильно, що LCA бере на себе основну приховану змінну, що породжує класи, тоді як кластерний аналіз - це емпіричний опис корельованих атрибутів алгоритму кластеризації? Схоже, що в соціальних науках LCA набув популярності і вважається …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Порівняння ієрархічної кластеризації дендрограм, отриманих різними відстанями та методами
[Початкова назва "Вимірювання подібності для ієрархічних дерев кластеризації" згодом @ttnphns змінила, щоб краще відобразити тему] Я виконую ряд ієрархічних кластерних аналізів у кадрі даних пацієнтів (наприклад, подібний до http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Я експериментую з різними мірами відстані , різною вагою параметрів та різними ієрархічними методами , щоб зрозуміти їх вплив на …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Різниця між стандартними та сферичними алгоритмами k-означає
Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів. На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються. У сферичних k-засобах всі вектори нормалізуються, а міра …

4
Як зробити зменшення розмірності в R
У мене є матриця, де a (i, j) повідомляє мені, скільки разів я переглядав сторінку j. Є 27K осіб та 95K сторінок. Мені хотілося б, щоб у просторі сторінок було кілька "вимірів" або "аспектів", які відповідали б наборам сторінок, які часто переглядаються разом. Моя кінцева мета - згодом мати можливість …

2
Як використовувати як бінарні, так і безперервні змінні разом у кластеризації?
Мені потрібно використовувати бінарні змінні (значення 0 і 1) у k-значенні. Але k-означає працює лише з безперервними змінними. Я знаю, що деякі люди до цих пір використовують ці бінарні змінні в k-значенні, ігноруючи той факт, що k-засоби призначені лише для суцільних змінних. Це для мене неприйнятно. Запитання: То який статистично …

3
Чим пошук центроїда відрізняється від знаходження середнього?
Виконуючи ієрархічну кластеризацію, можна використовувати багато метрик для вимірювання відстані між кластерами. Дві такі метрики передбачають обчислення центроїдів і засобів точок даних у кластерах. Яка різниця між середнім та центроїдним? Хіба це не однакова точка кластеру?
26 clustering  mean 

3
LSA проти PCA (кластеризація документів)
Я досліджую різні методи, що використовуються в кластеризації документів, і я хотів би усунути деякі сумніви щодо PCA (аналіз основних компонентів) та LSA (латентний семантичний аналіз). Перше - які відмінності між ними? Я знаю, що в PCA розкладання SVD застосовується до терміна-коваріаційної матриці, тоді як в LSA - матриця терміна-документа. …

1
Яке прийнятне значення критерію Calinski & Harabasz (CH)?
Я зробив аналіз даних, намагаючись кластеризувати поздовжні дані за допомогою R та пакету kml . Мої дані містять близько 400 окремих траєкторій (як це називається у статті). Ви можете побачити мої результати на наступному малюнку: Прочитавши розділ 2.2 "Вибір оптимальної кількості кластерів" у відповідному документі, я не отримав відповідей. Я …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.