Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

3
Кластеризація K-Means та EM: як вони пов'язані?
Я вивчив алгоритми кластеризації даних (без нагляду): EM та k-засоби. Я продовжую читати наступне: k-засоби - це варіант ЕМ, з припущеннями, що кластери сферичні. Чи може хтось пояснити вищезгадане речення? Я не розумію, що таке сферичні засоби, і як пов'язані kmeans та EM, оскільки один робить імовірнісне призначення, а інший …


3
Чи можливо зробити кластеризацію часових рядів на основі форми кривої?
У мене є дані про продажі для ряду торгових точок, і я хочу їх класифікувати за формою кривих у часі. Дані виглядають приблизно так (але, очевидно, не є випадковими і мають деякі відсутні дані): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- …

3
Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом
Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 


5
Чи важливо масштабувати дані перед кластеризацією?
Я знайшов цей підручник , який говорить про те, що вам слід запустити функцію масштабування на функції перед кластеризацією (я вважаю, що вона перетворює дані в z-бали). Мені цікаво, чи потрібно це? Я запитую в основному тому, що є приємний момент ліктя, коли я не масштабую дані, але він зникає, …

8
Як зробити виявлення спільноти у зваженій соціальній мережі / графіку?
Мені цікаво, чи хтось міг би запропонувати, які є хорошими вихідними пунктами, коли справа стосується виявлення спільноти / розподілу / кластеризації графіка на графіку, який має зважені , непрямі краї. Графік, про який йде мова, має приблизно 3 мільйони ребер, і кожен край виражає ступінь подібності між двома вершинами, які …

5
Динамічні кластеризації викривлення в часі
Який би був підхід використання динамічного викривлення часу (DTW) для кластеризації часових рядів? Я читав про DTW як спосіб знайти схожість між двома часовими рядами, в той час як вони могли бути зміщені в часі. Чи можу я використовувати цей метод як міру подібності для алгоритму кластеризації, як k-засоби?

5
"Кластеризація" часових рядів в R
У мене є набір даних часових рядів. Кожна серія охоплює один і той же період, хоча фактичні дати в кожному часовому ряді можуть не всі «точно вирівнюватися». Тобто, якби серія «Час» читалася у 2D матриці, вона виглядала б приблизно так: date T1 T2 T3 .... TN 1/1/01 100 59 42 …

3
Як вибрати метод кластеризації? Як перевірити рішення кластера (гарантувати вибір методу)?
Однією з найбільш важливих проблем кластерного аналізу є те, що, можливо, нам доведеться робити різні висновки, коли базуватися на різних методах кластеризації (включаючи різні методи зв’язку в ієрархічній кластеризації). Мені хотілося б дізнатися вашу думку з цього приводу - який метод ви виберете та як. Можна сказати, «найкращий метод кластеризації …

2
Ієрархічна кластеризація даних змішаного типу - яку відстань / схожість використовувати?
У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?

4
Як інтерпретувати задум силуету?
Я намагаюся використовувати силуетний графік, щоб визначити кількість кластерів у моєму наборі даних. З огляду на набір даних Train , я використав наступний код matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` …

3
Чому t-SNE не використовується як метод зменшення розмірності для кластеризації чи класифікації?
У недавньому призначенні нам сказали використовувати PCA на цифрах MNIST, щоб зменшити розміри з 64 (8 x 8 зображень) до 2. Потім нам довелося кластеризувати цифри за допомогою Гауссової моделі суміші. PCA, що використовує лише 2 основних компоненти, не дає чітких кластерів, і в результаті модель не в змозі створити …

3
Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?
Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
(Чому) SOM у стилі Kohonen не прихильнився?
Наскільки я можу сказати, СМС у стилі Кохонена мав пік ще в 2005 році і останнім часом не відчував такої великої прихильності. Я не знайшов жодної статті, в якій було б сказано, що СОМ були заміщені іншим методом, або що було б еквівалентним чомусь іншим (у більших розмірах, як би …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.