Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

5
Як зрозуміти недоліки К-засобів
K-засоби - це широко застосовуваний метод кластерного аналізу. Наскільки я розумію, цей метод НЕ вимагає жодних припущень, тобто дайте мені набір даних та заздалегідь задане число кластерів, k, і я просто застосую цей алгоритм, який мінімізує суму помилок у квадраті (SSE), кластер всередині кластеру помилка. Тож k-засоби є по суті …

8
Чому евклідова відстань не є хорошою метрикою у великих розмірах?
Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей …

8
Виявлення заданого обличчя в базі даних зображень обличчя
Я працюю над невеликим проектом, в якому беруть участь особи користувачів твіттера через фотографії їхніх профілів. Проблема, з якою я стикався, полягає в тому, що після того, як я фільтрую всі, крім зображень, які є чіткими портретними фотографіями, невеликий, але значний відсоток користувачів twitter використовує зображення Джастіна Бібера як зображення …

6
Як сказати, чи достатньо "кластеризованих" даних для алгоритмів кластеризації для отримання значущих результатів?
Як ви могли б знати, якщо ваші (високомірні) дані демонструють достатню кластеризацію, щоб результати від kmeans або іншого алгоритму кластеризації насправді мали значення? Зокрема, для алгоритму k-означає, на скільки має бути зменшення дисперсії всередині кластера, щоб фактичні результати кластеризації були значимими (а не помилковими)? Чи має бути кластеризація очевидною, коли …

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
Кластеризація на виході t-SNE
У мене є додаток, де було б зручно кластерувати шумний набір даних, перш ніж шукати ефекти підгруп у кластерах. Я спершу подивився на PCA, але для отримання 90% варіабельності потрібно ~ 30 компонентів, тому кластеризація лише на декількох комп'ютерах викине багато інформації. Потім я спробував t-SNE (вперше), який надає мені …

6
Вибір методу кластеризації
Використовуючи кластерний аналіз на наборі даних для групування подібних випадків, потрібно вибрати серед великої кількості методів кластеризації та міри відстані. Іноді один вибір може впливати на інший, але існує безліч можливих комбінацій методів. Хтось має якісь рекомендації щодо вибору серед різних алгоритмів / методів кластеризації та дистанційних заходів ? Як …

7
Евклідова відстань, як правило, не корисна для розріджених даних?
Десь я бачив, що класичні відстані (наприклад, евклідова відстань) стають слабко дискримінантними, коли ми маємо багатовимірні та розріджені дані. Чому? Чи є у вас приклад двох розріджених векторів даних, де евклідова відстань не працює добре? У цьому випадку яку подібність ми повинні використати?

6
Чому алгоритм кластеризації k-означає використовує тільки евклідову метрику відстані?
Чи є конкретна мета з точки зору ефективності чи функціональності, чому алгоритм k-засобів не використовує, наприклад, подібність косинуса (dis) як метрику відстані, а може використовувати лише евклідову норму? Загалом, чи відповідає метод К-засобів та чи буде правильним, якщо розглядаються чи використовуються інші відстані, ніж Евклідова? [Доповнення від @ttnphns. Питання двозначне. …

6
Де вирізати дендрограму?
Ієрархічна кластеризація може бути представлена ​​дендрограмою. Вирізання дендрограми на певному рівні дає набір кластерів. Вирізання на іншому рівні дає ще один набір кластерів. Як би ви вибрали, де вирізати дендрограму? Чи є щось, що ми могли б вважати оптимальним моментом? Якщо я дивлюсь на дендрограму впродовж часу, коли вона змінюється, …

5
Яке відношення між кластеризацією k-засобів та PCA?
Загальна практика застосовувати PCA (аналіз основних компонентів) перед алгоритмом кластеризації (наприклад, k-засоби). Вважається, що це покращує результати кластеризації на практиці (зниження шуму). Однак мене цікавить порівняльне та поглиблене вивчення взаємозв'язку PCA та k-засобів. Наприклад, Кріс Дінг та Xiaofeng He, 2004 р., K-означає Кластеризація за допомогою аналізу основних компонентів, показали, що …

10
Як визначитися з правильною кількістю кластерів?
Ми знаходимо центри кластерів і призначаємо точки k різним бункерам кластерів в кластеризації k-означає, що є дуже відомим алгоритмом і знаходиться майже в кожному пакеті машинного навчання в мережі. Але відсутнім і найважливішим на мою думку є вибір правильного k. Яке найкраще значення для цього? І що мається на увазі …


2
Як можна використовувати штучну нейронну мережу ANN для кластеризації без нагляду?
Я розумію, як artificial neural network (ANN)можна тренуватися під наглядом, використовуючи зворотні пропорції для поліпшення пристосування, зменшуючи помилку в прогнозах. Я чув, що ANN може бути використаний для непідвладного навчання, але як це можна зробити без якоїсь функції витрат для керування етапами оптимізації? За допомогою k-засобів або алгоритму ЕМ існує …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.