Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

3
Кластеризація розподілу ймовірностей - методи та показники?
У мене є кілька даних даних, кожен з яких містить 5 векторів агломерованих дискретних результатів, результати кожного вектора генеруються різним розподілом (конкретний вид якого я не впевнений, я найкраще здогадуюсь - Вейбул. Параметр форми змінюється десь навколо експоненціальної до потужності закон (від 1 до 0, приблизно).) Я хочу використовувати алгоритм …

2
Як відстань Гоувера обчислює різницю між бінарними змінними?
У мене 17 числових і 5 двійкових (0-1) змінних, з 73 вибірками в моєму наборі даних. Мені потрібно запустити аналіз кластеру. Я знаю, що відстань Gower - це хороший показник для наборів даних із змішаними змінними. Однак я не міг зрозуміти, як відстань Гоувера обчислює різницю між бінарними змінними . …

1
k-означає || ака масштабований K-засоби ++
Бахман Бахмані та ін. введено k-означає ||, що є більш швидкою версією k-означає ++. Цей алгоритм взято зі сторінки 4 своєї статті , Бахмані, Б., Мозелі, Б., Ваттані, А., Кумар, Р., та Васильвіцький, С. (2012). Масштабований k-означає ++. Праці Фонду VLDB , 5 (7), 622-633. На жаль, я не розумію …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Чи можете ви порівняти різні методи кластеризації на наборі даних без основної істини шляхом перехресної перевірки?
На даний момент я намагаюся проаналізувати набір даних текстових документів, які не мають основної істини. Мені сказали, що ви можете використовувати k-кратну перехресну перевірку для порівняння різних методів кластеризації. Однак у прикладах, які я бачив у минулому, використовується основна правда. Чи можна використовувати засоби k-fold на цьому наборі даних для …

5
Чи можна використовувати PCA, щоб зробити змінний вибір для кластерного аналізу?
Я повинен зменшити кількість змінних для проведення кластерного аналізу. Мої змінні сильно корелюються, тому я думав зробити факторний аналіз PCA (аналіз основних компонентів). Однак якщо я використовую отримані оцінки, мої кластери не зовсім коректні (порівняно з попередніми класифікаціями в літературі). Питання: Чи можу я використовувати матрицю обертання для вибору змінних …

2
Кластеризація просторових даних в R
У мене є набір щомісячних даних про температуру поверхні моря (SST), і я хочу застосувати певну методологію кластеру для виявлення регіонів з подібними моделями SST. У мене є набір щомісячних файлів даних, що працюють з 1985 по 2009 рік, і я хочу застосувати кластеризацію до кожного місяця як перший крок. …
12 r  clustering  spatial 


1
Точний тест Фішера та гіпергеометричне поширення
Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

2
Інтерпретація результату кластеризації k-засобів у R
Я використовував kmeansінструкцію R для виконання алгоритму k-означає на наборі даних ірису Андерсона. У мене питання про деякі параметри, які я отримав. Результати: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 У цьому випадку, що означає «Кластер»? Це середнє значення відстаней усіх об'єктів у кластері? Також в …

1
Надійний кластерний метод для змішаних даних в R
Я шукаю кластеризувати невеликий набір даних (64 спостереження 4-х інтервальних змінних та одна категоріальна трифакторна змінна). Зараз я зовсім новачок у кластерному аналізі, але знаю, що з часів, коли ієрархічна кластеризація або k-засоби були єдиними доступними варіантами, був значний прогрес. Зокрема, видається, що доступні нові методи кластеризації на основі моделей, …

3
Як я можу перевірити, чи є моє кластеризація двійкових даних значним
Я роблю аналізи кошиків, мої набори даних - це набір векторів транзакцій, з предметами, які купуються товари. Застосовуючи k-засоби у транзакціях, я завжди отримуватиму певний результат. Випадкова матриця, ймовірно, також відображатиме деякі кластери. Чи є спосіб перевірити, чи є я кластеризація значущою, чи це, можливо, може бути збігом обставин. Якщо …

1
Призначте ваги змінним в кластерному аналізі
Я хочу призначити різні ваги змінним в моєму кластерному аналізі, але моя програма (Stata), схоже, не має можливості для цього, тому мені потрібно це зробити вручну. Уявіть 4 змінних A, B, C, D. Вага для цих змінних повинна бути w(A)=50% w(B)=25% w(C)=10% w(D)=15% Мені цікаво, чи справді вдасться зробити один …
12 clustering  stata 

1
Що робити, коли матриця коваріації зразка не обернена?
Я працюю над деякими методами кластеризації, де для заданого кластера d-розмірних векторів я припускаю багатоваріантне нормальне розподіл і обчислюю вибірковий d-розмірний середній вектор та матрицю коваріації вибірки. Тоді, намагаючись вирішити, чи належить новий, невидимий, d-мірний вектор до цього кластеру, я перевіряю його відстань за допомогою цієї міри: (Xi−μ^X)′σ^−1X(Xi−μ^X)>B0.95(p2,−p2)(Xi−μ^X)′σ^X−1(Xi−μ^X)>B0.95(p2,−p2)\left(X_i-\hat{\mu}_X\right)'\hat{\sigma}_X^{-1}\left(X_i-\hat{\mu}_X\right)>B_{0.95}\left(\frac{p}{2},\frac{-p}{2}\right) Що вимагає …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.