Запитання з тегом «k-means»

k-засоби - це метод розподілу даних на кластери шляхом пошуку заданої кількості засобів, k, st, коли дані призначаються кластерам w / найближче середнє значення, сума кластерів w / i мінімізується

2
k-означає проти k-медіани?
Я знаю, що існує алгоритм кластеризації k-означає і k-медіана. Один, який використовує середнє як центр кластера, а другий, використовує медіану. Моє запитання: коли / де використовувати який?

2
Чому k-засоби не оптимізовані за допомогою градієнтного спуску?
Я знаю, що k-засоби, як правило, оптимізуються за допомогою максимізації очікування . Однак ми могли б оптимізувати його функцію втрат так само, як і будь-яку іншу! Я знайшов деякі документи, які фактично використовують стохастичний градієнтний спуск для великомасштабних k-засобів, але не змогли отримати відповідь на моє питання. Отже, хтось знає, …

3
Чому ми використовуємо k-засоби замість інших алгоритмів?
Я досліджував k-засоби, і ось що я отримав: k-засоби - це один із найпростіших алгоритмів, який використовує метод непідконтрольного навчання для вирішення відомих проблем кластеризації. Він працює дуже добре з великими наборами даних. Однак є і недоліки K-засобів, які є: Сильна чутливість до залишків і шуму Не добре працює з …


3
Відповідність ANOVA після кластерного аналізу k-означає
Повідомлення після таблиці ANOVA після аналізу K-засобів вказує на те, що рівні значущості не слід розглядати як випробування рівних засобів, оскільки рішення кластера було отримано на основі евклідової відстані для максимального відстані. Який тест слід використати, щоб показати, чи відрізняються засоби кластерних змінних між кластерами? Я бачив це застереження в …
14 anova  k-means 

2
Чи є в R функція, яка приймає знайдені центри кластерів і призначає кластери новому набору даних
У мене є дві частини багатовимірного набору даних, назвемо їх trainі test. І я хочу побудувати модель на основі набору даних поїздів, а потім перевірити її на тестовому наборі даних. Відомо кількість кластерів. Я спробував застосувати k-означає кластеризацію в R, і я отримав об'єкт, який містить центри кластерів: kClust <- …
14 r  clustering  k-means 

4
k-означає реалізацію з власною матрицею дистанції у вході
Чи може хтось вказати мені на реалізацію k-засобів (було б краще, якщо в matlab), яка може взяти матрицю відстані у введенні? Стандартна реалізація matlab потребує вхідної матриці спостереження, і неможливо настроїти зміну міри подібності.

3
Чи потрібно скидати змінні, які є кореляційними / колінеарними, перш ніж запускати kmeans?
Я запускаю kmeans, щоб визначити кластери клієнтів. У мене є приблизно 100 змінних для ідентифікації кластерів. Кожна з цих змінних становить відсоток витрат клієнта на категорію. Отже, якщо у мене є 100 категорій, у мене є ці 100 змінних, що сума цих змінних становить 100% для кожного клієнта. Тепер ці …

5
Як я можу конвертувати відстань (евклідову) в оцінку подібності
Я використовую означає кластеризацію для голосу кластера динаміків. Коли я порівнюю висловлювання з кластерними даними динаміків, я отримую (евклідову відстань) середнє спотворення. Ця відстань може бути в межах . Я хочу перетворити цю відстань у показник подібності . Підкажіть будь ласка про те, як я можу цього досягти.kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

4
Ініціалізація центрів K-засобів за допомогою випадкових підпроборів набору даних?
Якщо у мене є певний набір даних, наскільки розумним буде ініціалізація центрів кластерів за допомогою випадкових вибірок цього набору даних? Наприклад, припустимо, я хочу 5 clusters. Я вважаю 5 random samples, size=20%оригінальний набір даних. Чи можу я потім взяти середнє значення кожного з цих 5 випадкових вибірок і використовувати ці …

2
Використання BIC для оцінки кількості k у KMEANS
В даний час я намагаюся обчислити BIC для мого набору даних про іграшки (ofc iris (:). Я хочу відтворити результати, як показано тут (рис. 5). Цей документ також є моїм джерелом для формул BIC). У мене є 2 проблеми з цим: Позначення: ninin_i = кількість елементів кластераiii CiCiC_i = центральні …

4
Що робити, коли немає точки ліктя для кластеризації kmeans
Я дізнався, що, вибираючи декілька кластерів, слід шукати точку ліктя для різних значень K. Я побудував графіки значень inssss для значень k від 1 до 10, але я не бачу чіткого ліктьовий. Що ти робиш у такому випадку?

3
Кластеризація розподілу ймовірностей - методи та показники?
У мене є кілька даних даних, кожен з яких містить 5 векторів агломерованих дискретних результатів, результати кожного вектора генеруються різним розподілом (конкретний вид якого я не впевнений, я найкраще здогадуюсь - Вейбул. Параметр форми змінюється десь навколо експоненціальної до потужності закон (від 1 до 0, приблизно).) Я хочу використовувати алгоритм …

1
k-означає || ака масштабований K-засоби ++
Бахман Бахмані та ін. введено k-означає ||, що є більш швидкою версією k-означає ++. Цей алгоритм взято зі сторінки 4 своєї статті , Бахмані, Б., Мозелі, Б., Ваттані, А., Кумар, Р., та Васильвіцький, С. (2012). Масштабований k-означає ++. Праці Фонду VLDB , 5 (7), 622-633. На жаль, я не розумію …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.