Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

2
Виявлення шаблонів обману на іспиті на багато запитань
ПИТАННЯ: У мене є двійкові дані щодо іспитових питань (правильні / неправильні). Деякі люди, можливо, мали попередній доступ до набору питань та їх правильних відповідей. Я не знаю, хто, скільки чи хто. Якби не було обману, припустимо, я б моделював вірогідність правильної відповіді для пунктуiii як, деявляє собою складність питання, …

5
Процедура кластеризації, коли кожен кластер має рівну кількість балів?
У мене є кілька точок в R pX={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p , і я хочу об'єднати точки так, щоб: Кожен кластер містить рівну кількість елементів . (Припустимо, що кількість кластерів ділить nXXXnnn .) Кожен кластер є «просторово згуртованим» у певному сенсі, як кластери з значень.kkk Легко придумати безліч процедур кластеризації, які задовольняють одну …

3
Визначте різні кластери 1d даних із бази даних
У мене є база даних даних про передачу даних між різними вузлами. Це величезна база даних (майже 40 мільйонів передач). Одним з атрибутів є кількість переданих байтів (нбайт), яка становить від 0 байт до 2 тера байт. Я б хотів кластеризувати nbytes таким чином, що за даними кластерів k деякі …

3
Чи слід вважати зменшення розмірності для візуалізації «закритою» проблемою, вирішеною t-SNE?
Я багато читав про алгоритм -sneтtt для зменшення розмірності. Я дуже вражений роботою на "класичних" наборах даних, як-от MNIST, де вона чітко розмежовує цифри ( див. Оригінальну статтю ): Я також використовував це для візуалізації функцій, засвоєних нейронною мережею, яку я навчаю, і я був дуже задоволений результатами. Отже, наскільки …

2
Кластеризація змінних на основі співвідношень між ними
Запитання: У мене є велика кореляційна матриця. Замість кластеризації окремих кореляцій я хочу кластеризувати змінні на основі їх співвідношень один з одним, тобто якщо змінні A і змінна B мають аналогічні кореляції зі змінними C до Z, то A і B повинні бути частиною одного кластеру. Хорошим прикладом реального життя …

1
Використання кореляції як метрики відстані (для ієрархічної кластеризації)
Я хотів би ієрархічно кластеризувати свої дані, але замість того, щоб використовувати евклідову відстань, я хотів би використовувати кореляцію. Крім того, оскільки коефіцієнт кореляції коливається від -1 до 1, причому як -1, так і 1 позначають "співрегуляцію" в моєму дослідженні, я розглядаю як -1, так і 1 як d = …

3
Керована кластеризація чи класифікація?
Друге питання полягає в тому, що я виявив, що в дискусії десь в Інтернеті говорив про "контрольовану кластеризацію", наскільки я знаю, кластеризація без нагляду, тож який саме сенс стоїть під "контрольованим кластеризацією"? Яка різниця щодо "класифікації"? Про це багато посилань: http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf http://engr.case.edu/ray_soumya/mlrg/supervid_clustering_finley_joachims_icml05.pdf http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf http://www.cs.cornell.edu/~tomf/publications/supervid_kmeans-08.pdf http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf тощо ...

2
Кластеризація двійкової матриці
У мене є напівмаленька матриця двійкових ознак розміром 250k x 100. Кожен рядок - це користувач, а стовпці - це двійкові "теги" деякої поведінки користувача, наприклад "like_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 …

8
Виконайте K-засоби (або його близькі споріднення), кластеризуючи лише матрицю відстані, а не дані по характеристиках
Я хочу виконати кластеризацію K-засобів на об'єктах, які у мене є, але об'єкти не описуються як точки в просторі, тобто за objects x featuresнабором даних. Однак я в змозі обчислити відстань між будь-якими двома об’єктами (воно засноване на функції подібності). Отже, я розпоряджаюсь матрицею відстані objects x objects. Я раніше …

2
Як кластеризувати часові ряди?
У мене питання щодо кластерного аналізу. Є 3000 компаній, які повинні бути кластеризовані відповідно до їх енергоспоживання протягом 5 років. Кожна компанія має значення для кожної години протягом 5 років. Я хотів би дізнатись, чи мають деякі компанії однакову схему використання потужностей протягом періоду часу. Результати слід використовувати для щоденного …

2
Порівняння кластеризації: Індекс Rand та Варіації інформації
Мені було цікаво, чи хтось мав уявлення чи інтуїцію за різницею між варіацією інформації та індексом Rand для порівняння кластерів. Я прочитала документ " Порівняння кластерів - відстань, заснована на інформації " Марини Меліа (Journal of Multivariate Analysis, 2007), але, окрім зауваження різниці у визначеннях, я не розумію, що це …

4
Чому змішані дані є проблемою для алгоритмів кластеризації на основі евкліда?
Більшість класичних алгоритмів кластеризації та зменшення розмірності (ієрархічна кластеризація, аналіз основних компонентів, k-засоби, самоорганізуючі карти ...) розроблені спеціально для числових даних, а їх вхідні дані розглядаються як точки в евклідовому просторі. Це, звичайно, проблема, оскільки в багатьох реальних питаннях пов'язані змішані дані: наприклад, якщо ми вивчаємо автобуси, висота і довжина …

2
Якщо кластеризація k-засобів є формою моделювання суміші Гаусса, чи можна її використовувати, коли дані не є нормальними?
Я читаю Бішопа про алгоритм ЕМ для GMM та взаємозв'язок між GMM та k-засобами. У цій книзі йдеться про те, що k-засоби - це тверда версія GMM. Мені цікаво, чи означає це, що якщо дані, які я намагаюся кластеризувати, не є гауссовими, я не можу використовувати k-засоби (або, принаймні, непридатні …

4
Як спроектувати новий вектор на простір PCA?
Після проведення аналізу основних компонентів (PCA) я хочу спроектувати новий вектор на простір PCA (тобто знайти його координати в системі координат PCA). Я розрахував PCA мовою R за допомогою prcomp. Тепер я повинен мати можливість помножити свій вектор на матрицю обертання PCA. Чи повинні головні компоненти в цій матриці розташовуватися …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

4
Чи існує алгоритм, що нагадує дерево рішень для непідконтрольного кластеризації?
У мене набір даних складається з 5 функцій: A, B, C, D, E. Всі вони є числовими значеннями. Замість того, щоб робити кластеризацію на основі щільності, я хочу зробити це кластеризувати дані у формі дерева, що нагадує рішення. Я маю на увазі такий підхід: Алгоритм може розділити дані на X …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.