Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

2
Виявлення кластерів "подібних" вихідних кодів
Припустимо, у мене 400 студентів (це у великому університеті), які повинні робити проект з інформатики, і що їм доведеться працювати поодинці (немає групи студентів). Як приклад проекту можна навести "реалізацію алгоритму швидкої трансформації фур'є у фортран" (я знаю, це не звучить сексуально, але це робить моє питання простішим). Я є …

3
Кластеризація розподілів
У мене є кілька розподілів (10 малюнків на малюнку нижче). Насправді це гістограми: на осі x є 70 значень, що є розмірами деяких частинок у розчині, і для кожного значення x відповідне значення y - це частка частинок, розмір яких становить приблизно значення x. Я б хотів згрупувати ці дистрибутиви. …
10 clustering 

3
Як кластеризувати поздовжні змінні?
У мене є купа змінних, які містять поздовжні дані від 0 до 7 дня. Я шукаю відповідний підхід кластеризації, який може класифікувати ці поздовжні змінні (а не випадки) у різні групи. Я спробував проаналізувати цей набір даних окремо за часом, але результат був досить важко пояснити. Я досліджував наявність процедури …
10 clustering 

2
Виявити кругові візерунки в даних хмарних даних
Для деякого алгоритму відновлення обсягу, над яким я працюю, мені потрібно виявити довільну кількість кругових шаблонів у даних 3d-точок (що надходять від пристрою LIDAR). Шаблони можуть бути довільно орієнтовані в просторі, і вважати, що вони лежать (хоча і не ідеально) у тонких 2d площинах. Ось приклад з двома колами в …

1
Використання пакету статистики в R для кластеризації kmeans
Мені важко зрозуміти один або два аспекти пакета кластерів. Я уважно слідкую за прикладом Quick-R , але не розумію одного чи двох аспектів аналізу. Я включив код, який я використовую для цього конкретного прикладу. ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, …
10 r  clustering 

1
Кластерний аналіз з подальшим дискримінантним аналізом
Яке обґрунтування, якщо воно є, використовувати дискримінантний аналіз (DA) за результатами алгоритму кластеризації, як k-засоби, як я час від часу бачу в літературі (фактично щодо клінічного підтипу психічних розладів)? Як правило, не рекомендується перевіряти групові відмінності на змінних, які використовувались під час побудови кластерів, оскільки вони підтримують максимізацію (мінімізацію відповідної) …

1
К-означає: Скільки ітерацій у практичних ситуаціях?
Я не маю досвіду в галузі видобутку даних або великих даних, тому хотілося б почути, як ви поділилися певним досвідом. Чи реально люди керують k-засобами, PAM, CLARA тощо на дійсно великому наборі даних? Або вони просто випадковим чином вибирають з нього зразок? Якщо вони просто беруть вибірку набору даних, чи …

2
Регульований індекс Rand vs коригувана взаємна інформація
Я намагаюся оцінити ефективність кластеризації. Я читав документацію по вивченню skiscit на метриках . Я не розумію різниці між ARI та AMI. Мені здається, що вони роблять одне й те саме двома різними способами. Посилаючись на документацію: Враховуючи знання присвоєння основного класу правди labels_true та призначення алгоритму кластеризації одних і …

2
Різниця між PCA та спектральною кластеризацією для невеликого вибіркового набору булевих ознак
У мене є набір даних з 50 зразків. Кожен зразок складається з 11 (можливо співвідносних) булевих ознак. Мені хотілося б дещо, як візуалізувати ці зразки на двовимірному графіку та перевірити, чи є серед 50-ти зразків кластери / групування. Я спробував наступні два підходи: (a) Запустіть PCA на матриці 50x11 та …

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
Яка модель глибокого навчання може класифікувати категорії, які не є взаємовиключними
Приклади: у мене є речення в описі посади: "Старший інженер Java у Великобританії". Я хочу використовувати модель глибокого навчання, щоб передбачити її як 2 категорії: English і IT jobs. Якщо я використовую традиційну модель класифікації, вона може передбачити лише 1 мітку з softmaxфункцією на останньому шарі. Таким чином, я можу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
Застосування стохастичного варіативного умовиводу до Байєсової суміші Гаусса
Я намагаюся реалізувати модель Гауссової суміші зі стохастичними варіаційними висновками, слідуючи цій роботі . Це пгм суміші Гаусса. Згідно з документом, повний алгоритм стохастичного варіаційного висновку: І я все ще дуже плутаю метод масштабування його до GMM. По-перше, я подумав, що локальний параметр - це просто а інші - все …

2
Вибір функцій для проблем кластеризації
Я намагаюся згрупувати різні набори даних, використовуючи непідтримувані алгоритми (кластеризація). Проблема полягає в тому, що у мене багато особливостей (~ 500) і невелика кількість справ (200-300). Поки що я займався лише проблемами з класифікацією, для яких я завжди мав дані як навчальні набори. Там я використав деякий критерій (тобто випадковий.форест.важливість …

2
Як знайти ваги для міри дисиміліарності
Я хочу дізнатися (вивести) ваги атрибутів для міри невідповідності, яку я можу використовувати для кластеризації. У мене є кілька прикладів пар об'єктів, які є "подібними" (повинні бути в одному кластері), а також деякі приклади пар об'єктів, які "не схожі" (не повинні бути в одному кластері). Кожен об’єкт має ряд атрибутів: …

2
Як створюється цей графік "Сполучені Штати Реддіта"?
Нижче наведено графік із с. 202 з Dataclysm Крістіана Руддера , хоча його зробив Джеймс Дауделл. Він ілюструє взаємозв'язки між різними топ-200 підкредитами, які є цікавими на reddit.com, де користувачі можуть надсилати посилання, коментарі та голоси. Вони схожі на теги на цьому сайті. Розміри областей субредагування представляють їхню популярність. Підредакти …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.