Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

1
Вибір моделі Mclust
Пакет R mclustвикористовує BIC як критерій вибору моделі кластера. З мого розуміння, модель з найнижчою BIC повинна бути обрана порівняно з іншими моделями (якщо виключно дбаєш лише про BIC). Однак, коли значення BIC усі негативні, Mclustфункція за замовчуванням відповідає моделі з найвищим значенням BIC. Моє загальне розуміння з різних випробувань …

1
Пояснення максимізації очікування
Я знайшов дуже корисний підручник щодо алгоритму ЕМ . Приклад та малюнок із підручника просто геніальні. Пов'язане питання щодо обчислення ймовірностей, як працює максимізація очікування? У мене є ще одне питання щодо того, як з'єднати теорію, описану в підручнику, із прикладом. Під час Е-кроку ЕМ вибирає функцію яка знижує межі …

3
Чи працює модуль мережі Ньюмена для підписаних, зважених графіків?
Модульність графа визначена на його сторінці у Вікіпедії . В іншому дописі хтось пояснив, що модульність може бути легко обчислена (і максимізована) для зважених мереж, оскільки матриця суміжності може містити цінні зв'язки. Однак я хотів би знати, чи це також буде працювати з підписаними, цінними краями, починаючи, наприклад, від -10 …

1
Яка інтуїція лежить в основі варіації метрики інформації (VI) для перевірки кластеру?
Для нестатистів, як я, дуже важко зафіксувати ідею VIметрики (варіації інформації) навіть після прочитання відповідної статті Марини Меліа " Порівняння кластеризації - відстань на основі інформації " (Journal of Multivariate Analysis, 2007). Насправді я не знайомий з багатьма умовами кластеризації там. Нижче наведено MWE, і я хотів би знати, що …

2
Які відстані між змінними, що складають коваріаційну матрицю?
Я маю коваріаційну матрицю і хочу розділити змінні на кластери за допомогою ієрархічної кластеризації (наприклад, для сортування матриці коваріації).kn × nн×нn \times nккk Чи існує типова функція відстані між змінними (тобто між стовпцями / рядками матриці квадратної коваріації)? Або якщо їх більше, чи є хороша довідка по темі?

2
Як знайти групування (траєкторії) серед поздовжніх даних?
Контекст Я хочу встановити сцену, перш ніж дещо розширювати питання. У мене є поздовжні дані, вимірювання, проведені на суб'єктах приблизно кожні 3 місяці, первинний результат є числовим (як у безперервному до 1dp) в межах від 5 до 14, а основна маса (усіх точок даних) становить від 7 до 10. Якщо …

4
Чи бувають випадки, коли в k-засобів немає оптимального k?
Це було в моїй свідомості принаймні кілька годин. Я намагався знайти оптимальний k для виходу з алгоритму k-означає (з метрикою косинусної схожості ), тому в кінцевому підсумку побудував спотворення як функцію від кількості кластерів. Мій набір даних - це колекція 800 документів у 600-мірному просторі. З того, що я розумію, …

5
Кластеризація SOM для номінальних / кругових змінних
Цікаво, чи хтось знайомий з кластеризацією номінальних входів. Я розглядав SOM як рішення, але, мабуть, він працює лише з числовими характеристиками. Чи є розширення для категоричних ознак? Зокрема, мені було цікаво про "Дні тижня" як про можливі функції. Звичайно, можна перетворити його в числову ознаку (тобто пн - нд, що …

2
Візуалізація багатовимірних даних (LSI) у 2D
Я використовую приховану семантичну індексацію, щоб знайти схожість між документами ( спасибі, JMS! ) Після зменшення розміру я спробував кластеризувати k-засоби, щоб згрупувати документи в кластери, що працює дуже добре. Але я хотів би піти трохи далі і візуалізувати документи як набір вузлів, де відстань між будь-якими двома вузлами обернено …

3
Методи ініціалізації кластеризації K-засобів
Мене цікавить сучасний стан вибору початкових насінин (центрів кластерів) для K-засобів. Гуглінг призводить до двох популярних варіантів: випадковий відбір початкових насіння, і, використовуючи техніку відбору KMeans ++: Артур та Васильвіцький 2006 k-засоби ++: Переваги дбайливого висіву насіння Чи є якісь багатообіцяючі методи, про які хтось тут знає, які можуть бути …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Який алгоритм я повинен використовувати для кластеризації величезного бінарного набору даних у декілька категорій?
У мене є велика (650 К рядків * 62 стовпчики) матриця двійкових даних (лише 0-1 записи). Матриця переважно розріджена: заповнено близько 8%. Я хотів би класифікувати його в 5 груп - скажімо, названі від 1 до 5. Я спробував ієрархічну кластеризацію, і вона не змогла впоратися з розміром. Я також …

3
Відстань між двома гауссовими сумішами для оцінки кластерних рішень
Я запускаю швидке моделювання для порівняння різних методів кластеризації, і в даний час натиснув на корч, намагаючись оцінити кластерні рішення. Я знаю різні показники перевірки (багато з них знайдені у cluster.stats () в R), але я припускаю, що їх найкраще використовувати, якщо орієнтовна кількість кластерів насправді дорівнює дійсній кількості кластерів. …

2
Як "розумно" скласти колекцію відсортованих даних?
Я намагаюся інтелектуально зібрати впорядковану колекцію. У мене є збірка з яти даних. Але я знаю, що ці дані вписуються в нерівномірних розмірів. Я не знаю, як розумно вибрати кінцеві точки, щоб правильно підходити до даних. наприклад:nnnmmm Скажімо, у моїй колекції 12 предметів, і я знаю, що дані вмістяться в …

5
Кластеризація як засіб поділу даних для логістичної регресії
Я намагаюся передбачити успіх чи невдачу студентів на основі деяких особливостей з логістичною регресійною моделлю. Щоб покращити ефективність моделі, я вже думав про розподіл учнів на різні групи на основі очевидних відмінностей та побудови окремих моделей для кожної групи. Але я думаю, що може бути складно визначити ці групи за …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.