Запитання з тегом «hierarchical-clustering»

3
Як вибрати метод кластеризації? Як перевірити рішення кластера (гарантувати вибір методу)?
Однією з найбільш важливих проблем кластерного аналізу є те, що, можливо, нам доведеться робити різні висновки, коли базуватися на різних методах кластеризації (включаючи різні методи зв’язку в ієрархічній кластеризації). Мені хотілося б дізнатися вашу думку з цього приводу - який метод ви виберете та як. Можна сказати, «найкращий метод кластеризації …

2
Вибір правильного методу зв'язку для ієрархічної кластеризації
Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery. Мій процес такий: Отримайте останні 1000 публікацій в / r / polit Зберіть всі коментарі Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції) Обчисліть матрицю …

3
Як інтерпретувати дендрограму ієрархічного кластерного аналізу
Розглянемо приклад R нижче: plot( hclust(dist(USArrests), "ave") ) Що саме означає вісь y "Висота"? Дивлячись на Північну Кароліну та Каліфорнію (скоріше ліворуч). Чи Каліфорнія «ближче» до Північної Кароліни, ніж Арізона? Чи можу я зробити таке тлумачення? Гаваї (праворуч) приєднується до кластера досить пізно. Я бачу це як "вище", ніж інші …

1
Використання кореляції як метрики відстані (для ієрархічної кластеризації)
Я хотів би ієрархічно кластеризувати свої дані, але замість того, щоб використовувати евклідову відстань, я хотів би використовувати кореляцію. Крім того, оскільки коефіцієнт кореляції коливається від -1 до 1, причому як -1, так і 1 позначають "співрегуляцію" в моєму дослідженні, я розглядаю як -1, так і 1 як d = …

4
Як зрозуміти недоліки ієрархічної кластеризації?
Чи може хтось пояснити плюси та мінуси ієрархічної кластеризації? Чи мають ієрархічні кластери такі ж недоліки, що і K? Які переваги ієрархічної кластеризації перед K означає? Коли ми повинні використовувати засоби K над ієрархічною кластеризацією та навпаки? Відповіді на цю посаду дуже добре пояснюють недоліки k означає. Як зрозуміти недоліки …

2
Кластеризація - інтуїція за теоремою неможливості Кляйнберга
Я думав над тим, щоб написати публікацію в блозі про цей цікавий аналіз Клейнберга (2002), який досліджує труднощі кластеризації. Кляйнберг окреслює три, здавалося б, інтуїтивні дезидерати для функції кластеризації, а потім доводить, що такої функції не існує. Існує багато алгоритмів кластеризації, які задовольняють два з трьох критеріїв; однак жодна функція …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
Чи повинна відстань бути "метрикою", щоб ієрархічна кластеризація була дійсною на ній?
Скажімо, що ми визначаємо відстань, яка не є метрикою , між N елементами. На основі цієї відстані ми використовуємо агломераційну ієрархічну кластеризацію . Чи можемо ми використовувати кожен з відомих алгоритмів (одинарне / максимум / авангардний зв’язок тощо), щоб отримати значущі результати? Або по-іншому, в чому проблема їх використання, якщо …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.