Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

8
Міра якості кластеризації
У мене є алгоритм кластеризації (не k-означає) з вхідним параметром (кількість кластерів). Після виконання кластеризації я хотів би отримати деякий кількісний показник якості цього кластеризації. Алгоритм кластеризації має одну важливу властивість. Для якщо я подаю точок даних без будь-якої суттєвої різниці між ними до цього алгоритму, я отримаю один кластер, …
17 clustering 

2
Непараметричний байєсівський аналіз в R
Я шукаю гарний підручник з кластеризації даних при Rвикористанні ієрархічного процесу діріхле (HDP) (один з останніх і популярних непараметричних методів Байєса). Існує DPpackage(ІМХО, найбільш повний з усіх доступних) Rдля непараметричного байєсівського аналізу. Але я не в змозі зрозуміти приклади, подані в R Newsпосібнику з посібника або в його посібнику досить …

1
Природні перерви Дженкса в Python: Як знайти оптимальну кількість перерв?
Я знайшов цю реалізацію Python в Дженкс Natural Breaks алгоритму , і я міг би зробити його запустити на моєму комп'ютері Windows 7. Це досить швидко, і він знаходить перерви за кілька разів, враховуючи розмір моїх геоданих. Перш ніж використовувати цей алгоритм кластеризації для моїх даних, я використовував sklearn.clustering.KMeans (тут) …

5
Чому k-означає не дає глобального мінімуму?
Я читав, що алгоритм k-означає сходиться лише до локального мінімуму, а не до глобального мінімуму. Чому це? Я логічно можу подумати про те, як ініціалізація могла б вплинути на остаточну кластеризацію, і існує можливість субоптимальної кластеризації, але я не знайшов нічого, що це математично доведе. Крім того, чому k - …


3
Який алгоритм реалізує clover.D в hclust (), якщо він не є критерієм Уорда?
Той, який використовується опцією "garde.D" (еквівалентний єдиному варіанту "Ward" у версіях R <= 3.0.3), не реалізує критерій кластеризації Уорда (1963 р.), Тоді як варіант "garde.D2" реалізує цей критерій ( Мурта і Легенда 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Судячи з усього, garde.D не належним чином виконує критерій Уорда. Тим не менш, це, …
16 r  clustering  ward 

4
Кластеризація 1D даних
У мене є набір даних, я хочу створити кластери для цих даних на основі лише однієї змінної (відсутні відсутні значення). Я хочу створити 3 кластери на основі цієї однієї змінної. Який алгоритм кластеризації використовувати, k-засоби, EM, DBSCAN тощо? Моє головне питання, в яких обставинах я повинен використовувати k-засоби над ЕМ …
16 clustering 

2
Коли ми поєднуємо зменшення розмірності з кластеризацією?
Я намагаюся виконати кластеризацію на рівні документа. Я сконструював частотну матрицю терміна-документ і намагаюся кластеризувати ці великі розмірні вектори за допомогою k-засобів. Замість того, щоб безпосередньо кластеризувати, я спершу застосував сингулярний векторний розпад LSA (Latent Semantic Analysis) для отримання матриць U, S, Vt, вибрав відповідний поріг за допомогою діаграми екрана …

4
Припущення кластерного аналізу
Вибачте за рудиментарне запитання, я новачок у цій формі аналізу і досі дуже обмежене розуміння принципів. Мені було просто цікаво, чи багато параметричних припущень для багатоваріантних / одновимірних тестів застосовуються для кластерного аналізу? У багатьох джерелах інформації, яку я читав щодо кластерного аналізу, не вдається вказати жодних припущень. Мене особливо …

1
Як розрахувати чистоту?
Як аналізуємо кластер, як ми обчислюємо чистоту? Яке рівняння? Я не шукаю коду, щоб зробити це за мене. Нехай - кластер k, а - клас j.ωkωk\omega_kcjcjc_j Тож чистота практично точність? схоже, підсумовували кількість справді класифікованого класу за кластером за розміром вибірки. Джерело рівняння Питання в тому, яка взаємозв'язок між виходом …
16 clustering 

1
Який багаторазовий метод порівняння використовувати для lmer-моделі: lsmeans або glht?
Я аналізую набір даних, використовуючи модель змішаних ефектів з одним фіксованим ефектом (умовою) та двома випадковими ефектами (учасник, обумовлений в рамках проекту та пари). Модель була згенерована з lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Далі я провів перевірку коефіцієнта ймовірності цієї моделі проти моделі без фіксованого ефекту (умови) і маю суттєву різницю. У моєму …

2
Який хороший метод кластеризації короткого тексту?
Я працюю над проблемою кластеризації тексту. Дані містять кілька пропозицій. Чи є хороший алгоритм, який досягає високої точності на короткому тексті? Чи можете ви надати хороші довідки? Такі алгоритми, як KMeans, спектральна кластеризація не дуже добре справляються з цією проблемою.

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Text Mining: як кластерувати тексти (наприклад, статті новин) із штучним інтелектом?
Я створив кілька нейронних мереж (MLP (повністю підключений), Elman (повторюваний)) для різних завдань, таких як гра в понг, класифікація рукописних цифр та інше ... Крім того, я спробував створити кілька первинних нейронних мереж, наприклад, для класифікації багатозначних рукописних нотаток, але я абсолютно новий для аналізу та кластеризації текстів, наприклад, у …

2
Як підібрати модель суміші для кластеризації
У мене є дві змінні - X і Y, і мені потрібно зробити кластер максимальним (і оптимальним) = 5. Давайте ідеальний сюжет змінних такий: Я хотів би зробити з цього 5 кластерів. Щось на зразок цього: Тому я думаю, що це суміш з 5 кластерами. Кожен кластер має центральну точку …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.