Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

4
Як ви протестуєте реалізацію k-засобів?
Відмова: Я опублікував це питання на Stackoverflow, але я подумав, що, можливо, це краще підходить для цієї платформи. Як ви протестуєте власну реалізацію k-засобів для багатовимірних наборів даних? Я думав запустити вже наявну реалізацію (тобто Matlab) на даних і порівняти результати з моїм алгоритмом. Але для цього потрібно, щоб обидва …

2
Кластеризація дуже перекошених, порахуйте дані: будь-які пропозиції (перетворення тощо)?
Основна проблема Ось моя основна проблема: я намагаюся згрупувати набір даних, що містить кілька дуже перекошених змінних з підрахунками. Змінні містять багато нулів і тому не дуже інформативні для моєї процедури кластеризації - що, швидше за все, буде алгоритмом k-значень. Тонко, скажете ви, просто перетворіть змінні за допомогою квадратного корінця, …

1
Як автоматично кластеризувати U-матрицю?
Вивчивши карту самоорганізації, можна обчислити U-матрицю . Існують деякі інструменти для візуалізації вручну та визначення кластерів, але мені цікаво, чи існує якийсь алгоритм, щоб цей процес здійснювався автоматичним способом (тобто, не маючи людину дивитись на рисунок, щоб ідентифікувати кластери). Чи можна це зробити? Я пишу свій код в Р. Я …

3
Які статистичні методи я можу використовувати, щоб знайти популярні чи поширені комбінації категоричних змінних?
Я роблю дослідження щодо використання багатолікарських препаратів. У мене є набір даних про 400 наркоманів, які кожен заявляв про наркотики, які вони зловживають. Існує більше 10 препаратів, а значить, можливі великі комбінації. Я переписав більшість наркотиків, які вони вживають у бінарні змінні (тобто героїн - 1, якщо наркоман зловживав героїном …

1
Розуміння використання логарифмів у логарифмі TF-IDF
Я читав: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Але я не можу точно зрозуміти, чому формула була побудована такою, якою вона є. Що я розумію: iDF повинен на якомусь рівні вимірювати, як часто термін S з'являється в кожному з документів, зменшуючи значення, оскільки термін з'являється частіше. З цієї точки зору iDF(S)=# of Documents# of Documents …

3
Підхід та приклад кластеризації графіків у “R”
Я шукаю згрупувати / об’єднати вузли в графі, використовуючи кластеризацію граф у 'r'. Ось надзвичайно іграшка варіація моєї проблеми. Є два "кластери" Існує "міст", що з'єднує кластери Ось кандидатська мережа: Коли я дивлюсь на відстань з'єднання, "рахунок", якщо ви хочете, то я можу отримати таку матрицю: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), …

1
Як слід інтерпретувати статистику GAP?
Я використовував статистику GAP для оцінки k кластерів у Р. Однак я не впевнений, чи правильно її інтерпретую. З наведеного сюжету я припускаю, що мені слід використовувати 3 кластери. З другого сюжету я повинен вибрати 6 кластерів. Чи правильно трактувати статистику GAP? Буду вдячний за будь-яке пояснення.
10 clustering 


2
PyMC для непараметричної кластеризації: Процес Діріхле для оцінки параметрів суміші Гаусса не вдається кластеризувати
Налаштування проблеми Однією з перших іграшкових проблем, до якої я хотів застосувати PyMC, є непараметричне кластеризація: давши деякі дані, моделюйте її як гауссову суміш та дізнайтеся кількість кластерів та середнє значення та коеваріантність кожного кластеру. Більшість того, що я знаю про цей метод, походить з відео-лекцій Майкла Джордана та Йе-Уу-Тех, …

3
Як отримати інтервал довіри щодо зміни r-квадрата населення
Для простого прикладу припустимо, що існує дві моделі лінійної регресії Модель 1 має три провісники, x1a, x2b, іx2c Модель 2 має три предиктори з моделі 1 та два додаткові прогнози x2aтаx2b Існує рівняння регресії чисельності населення, де пояснюється дисперсія популяції для Моделі 1 та для Моделі 2. Інкрементальна дисперсія, пояснена …

2
Знаходження відомої кількості центрів кіл, які максимізують кількість точок на певній відстані
У мене є набір 2-D даних, де я хочу знайти центри визначеної кількості центрів кіл ( ), які максимізують загальну кількість точок на заданій відстані ( ).NNNRRR наприклад, у мене є 10 000 точок даних і я хочу знайти центри кіл, які захоплюють якомога більше точок в радіусі . Заздалегідь …
10 r  clustering  distance 

1
Чи означають низькі ширини силуету, що дані мають малу основу структури?
Я новачок у послідовності аналізу, і мені було цікаво, як ви реагуєте, якщо середні ширини силуету (ASW) від кластерного аналізу матриць невідповідності на основі оптимального відповідності низькі (близько 25). Чи здається доречним зробити висновок про те, що існує мала основна структура, яка б дозволяла кластеризувати послідовності? Чи можете ви ігнорувати …

1
Чому Anova () та drop1 () надали різні відповіді для GLMM?
У мене є GLMM форми: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Під час використання drop1(model, test="Chi")я отримую інші результати, ніж якщо я використовую Anova(model, type="III")з автомобільного пакета або summary(model). Ці два останні дають однакові відповіді. Використовуючи купу сфабрикованих даних, я виявив, що …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
Оцінювання кластерних ланцюгів Маркова першого порядку
Я згрупував свій набір даних з кількох тисяч ланцюгів Маркова першого порядку в приблизно 10 кластерів. Чи є якийсь рекомендований спосіб, як я можу оцінити ці кластери та дізнатись, чим діляться елементи в кластерах та чим вони відрізняються від інших кластерів? Тому я можу зробити висловлювання на кшталт "Процеси в …

1
Про кофенетичну кореляцію кластеризації дендрограм
Розглянемо контекст кластеризації дендрограм. Назвемо оригінальні відмінності відстаней між особинами. Після побудови дендрограми ми визначаємо кофенетичну різницю між двома особинами як відстань між кластерами, до яких ці особи належать. Деякі люди вважають, що кореляція між вихідними відмінностями та кофенетичними відмінностями (звана кофенетичною кореляцією ) є "показником придатності" класифікації. Це звучить …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.