Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

1
Яка інтуїція за обмінними зразками під нульовою гіпотезою?
Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
Виявлення часових рядів та аномалії
Я хотів би налаштувати алгоритм виявлення аномалії у часових рядах, і я планую використовувати для цього кластеризацію. Чому я повинен використовувати матрицю відстані для кластеризації, а не необроблені дані часових рядів ?, Для виявлення аномалії я буду використовувати кластеризацію на основі щільності, алгоритм як DBscan, щоб це працювало в цьому …

3
Чи нормально використовувати відстань на Манхеттені з міжкластерним зв'язком Варда в ієрархічній кластеризації?
Я використовую ієрархічну кластеризацію для аналізу даних часових рядів. Мій код реалізований з використанням Mathematica функції DirectAgglomerate[...], яка генерує ієрархічні кластери отримують наступні входи: матриця відстані D назва методу, що використовується для визначення міжкластерної зв'язку. Я обчислив матрицю відстані D, використовуючи відстань на Манхеттені: г( х , у) = ∑i|хi- …

1
Кластеризація: Чи слід використовувати розбіжність Дженсена-Шеннона або його квадрат?
Я кластеризую розподіл ймовірностей, використовуючи алгоритм розповсюдження афінності , і я планую використовувати дивергенцію Дженсена-Шеннона як мій показник відстані. Чи правильно використовувати JSD як відстань, або JSD у квадраті? Чому? Які відмінності випливали б із вибору того чи іншого?

3
Як побудувати графік виведення даних кластеризації?
Я спробував згрупувати набір даних (набір знаків) і отримав 2 кластери. Я хотів би це графічно представити. Трохи розгублений у поданні, оскільки у мене немає координат (x, y). Також шукає функцію MATLAB / Python для цього. EDIT Я думаю, що розміщення даних робить питання зрозумілішим. У мене є два кластери, …

2
Діріхле Процеси кластеризації: як поводитися з мітками?
Питання: Який стандартний спосіб кластеризації даних за допомогою процесу Діріхле? При використанні Gibbs зразки кластерів з’являються і зникають під час вибірки. Крім того, у нас є проблема ідентифікації, оскільки задній розподіл є інваріантним відношенням кластерів. Таким чином, ми не можемо сказати, що це кластер користувача, а скоріше, що два користувачі …

2
k-означає проти k-медіани?
Я знаю, що існує алгоритм кластеризації k-означає і k-медіана. Один, який використовує середнє як центр кластера, а другий, використовує медіану. Моє запитання: коли / де використовувати який?

2
Як можна згрупувати числові дані в природно утворюючі «дужки»? (наприклад, дохід)
Далі описано те, що я намагаюся досягти, але можливо, альтернативне вирішення проблеми може описати мою мету: я хочу поділіть наступні числа на групи, де дисперсії чисел у кожній групі не надто великі, а відмінності між середніми групами не надто малі порівняйте отриманий розподіл зрештою з «ідеальними» та побачите, наскільки він …

3
Чому ми використовуємо k-засоби замість інших алгоритмів?
Я досліджував k-засоби, і ось що я отримав: k-засоби - це один із найпростіших алгоритмів, який використовує метод непідконтрольного навчання для вирішення відомих проблем кластеризації. Він працює дуже добре з великими наборами даних. Однак є і недоліки K-засобів, які є: Сильна чутливість до залишків і шуму Не добре працює з …

4
Як виміряти форму кластера?
Я знаю, що це питання недостатньо чітко визначено, але деякі кластери, як правило, еліптичні або лежать у просторі нижнього розміру, а інші мають нелінійні форми (у 2D або 3D прикладах). Чи є міра нелінійності (або "форми") кластерів? Зауважте, що у 2D та 3D просторі не проблема бачити форму будь-якого кластера, …

3
Чи може хтось, будь-ласка, пояснити динамічну деформацію часу для визначення подібності часових рядів?
Я намагаюся зрозуміти динамічний показник викривлення часу для порівняння між собою часових рядів. У мене є три набори даних тимчасових рядів: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, 0.000179839942451, 0, …

8
Які "гарячі алгоритми" для машинного навчання?
Це наївне питання того, хто починає вивчати машинне навчання. Я читаю в наші дні книгу "Машинне навчання: алгоритмічна перспектива" від Marsland. Я вважаю це корисним як вступна книга, але зараз я хотів би перейти до вдосконалених алгоритмів, тих, які в даний час дають найкращі результати. Мене найбільше цікавить біоінформатика: кластеризація …

3
або показники для кластеризації?
Є чи хто - небудь використовувати в або метрики для кластеризації, а не ? Aggarwal та ін., Про дивовижну поведінку метрики відстані у просторі з високими розмірами говорили (у 2001 р.), ЩоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 послідовно більш кращий, ніж евклідова метрика відстані для застосувань для розміщення даних з високими розмірамиL2L2L_2 і стверджував, …

9
Програмне забезпечення для візуалізації для кластеризації
Заблокований . Це запитання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Я хочу кластеризувати ~ 22000 балів. Багато алгоритмів кластеризації працюють краще з початковими здогадами більш високої якості. Які існують інструменти, які можуть дати мені хороше уявлення …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.