Запитання з тегом «clustering»

Кластерний аналіз - це завдання розподілу даних на підмножини об'єктів відповідно до їх взаємної «подібності» без використання попередніх знань, таких як мітки класів. [Кластерні-стандартні помилки та / або зразки кластерів повинні бути позначені як такі; НЕ використовуйте для них тег "кластеризації".]

1
Програма вибору eps та minPts для DBSCAN
DBSCAN є найбільш цитованим алгоритмом кластеризації відповідно до деякої літератури, і він може знайти кластери довільної форми на основі щільності. Він має два параметри eps (як радіус сусідства) та minPts (як мінімальний сусід, який вважає точку основою), і я вважаю, що це дуже залежить від них. Чи є якийсь рутинний …

2
Чи є в R функція, яка приймає знайдені центри кластерів і призначає кластери новому набору даних
У мене є дві частини багатовимірного набору даних, назвемо їх trainі test. І я хочу побудувати модель на основі набору даних поїздів, а потім перевірити її на тестовому наборі даних. Відомо кількість кластерів. Я спробував застосувати k-означає кластеризацію в R, і я отримав об'єкт, який містить центри кластерів: kClust <- …
14 r  clustering  k-means 

4
k-означає реалізацію з власною матрицею дистанції у вході
Чи може хтось вказати мені на реалізацію k-засобів (було б краще, якщо в matlab), яка може взяти матрицю відстані у введенні? Стандартна реалізація matlab потребує вхідної матриці спостереження, і неможливо настроїти зміну міри подібності.

3
Чи потрібно скидати змінні, які є кореляційними / колінеарними, перш ніж запускати kmeans?
Я запускаю kmeans, щоб визначити кластери клієнтів. У мене є приблизно 100 змінних для ідентифікації кластерів. Кожна з цих змінних становить відсоток витрат клієнта на категорію. Отже, якщо у мене є 100 категорій, у мене є ці 100 змінних, що сума цих змінних становить 100% для кожного клієнта. Тепер ці …

5
Кластеризація (k-означає або інше) з обмеженням мінімального розміру кластера
Мені потрібно об'єднати одиниці в кластери, щоб мінімізувати суму квадратів у межах групи (WSS), але мені потрібно забезпечити, щоб кожен кластер містив принаймні m одиниць. Будь-яка ідея, чи дозволяє будь-яка з кластеризуючих функцій R об'єднати в k кластери з обмеженням мінімального розміру кластера? kmeans (), здається, не пропонує варіант обмеження …
14 r  clustering 

5
Як я можу конвертувати відстань (евклідову) в оцінку подібності
Я використовую означає кластеризацію для голосу кластера динаміків. Коли я порівнюю висловлювання з кластерними даними динаміків, я отримую (евклідову відстань) середнє спотворення. Ця відстань може бути в межах . Я хочу перетворити цю відстань у показник подібності . Підкажіть будь ласка про те, як я можу цього досягти.kkk[0,∞][0,∞][0,\infty][0,1][0,1][0,1]

1
Найсучасніший у дедуплікації
Які найсучасніші методи у дедуплікації записів? Дедуплікацію також іноді називають: зв'язок запису, роздільна здатність сутності, дозвіл ідентичності, злиття / очищення. Я знаю, наприклад, про CBLOCK [1]. Буду вдячний, якщо відповіді включали також посилання на існуюче програмне забезпечення, що реалізує методи. Я знаю, наприклад, що Mahout реалізує навіс-кластеризацію . Є також …

3
Великі дані кластера в R та чи є вибірка релевантною?
Я новачок у науці даних і маю проблему з пошуку кластерів у наборі даних із 200 000 рядків та 50 стовпців у Р. Оскільки дані мають як числові, так і номінальні змінні, такі методи, як K-засоби, які використовують евклідову міру відстані, не здаються відповідним вибором. Тому я звертаюся до PAM, …

5
Відповідні методи кластеризації тимчасових даних?
У мене є тимчасові дані про частоти активності. Я хочу визначити кластери в даних, які вказують на різні періоди часу з подібними рівнями активності. В ідеалі я хочу визначити кластери, не вказуючи апріори кількість кластерів. Які підходять методи кластеризації? Якщо моє запитання не містить достатньо інформації для відповіді, які відомості …

4
Ініціалізація центрів K-засобів за допомогою випадкових підпроборів набору даних?
Якщо у мене є певний набір даних, наскільки розумним буде ініціалізація центрів кластерів за допомогою випадкових вибірок цього набору даних? Наприклад, припустимо, я хочу 5 clusters. Я вважаю 5 random samples, size=20%оригінальний набір даних. Чи можу я потім взяти середнє значення кожного з цих 5 випадкових вибірок і використовувати ці …

2
Використання тесту на статистичну значимість для перевірки результатів кластерного аналізу
Я опитую використання тестування статистичної значущості (SST) для перевірки результатів кластерного аналізу. Я знайшов кілька робіт навколо цієї теми, таких як " Статистичні ознаки кластеризації кластеризації для даних високого розміру та малих вибірок " від Liu, Yufeng et al. (2008 р.) " Про деякі тести на значимість у кластерному аналізі …

2
Розуміння порівнянь результатів кластеризації
Я експериментую з класифікацією даних на групи. Я досить новачок у цій темі, і намагаюся зрозуміти результат деяких аналізів. За допомогою прикладів Quick-R пропонується кілька Rпакетів. Я спробував використовувати два з цих пакетів ( fpcза допомогою kmeansфункції та mclust). Один із аспектів цього аналізу, який я не розумію, - це …
13 r  clustering 

1
ЛАРС проти координатного спуску для ласо
Які плюси та мінуси використання LARS [1] проти використання координатного спуску для встановлення L1-регульованої лінійної регресії? Мене в основному цікавлять аспекти ефективності (мої проблеми мають, як правило, Nсотні тисяч і p<20). Однак, будь-які інші дані також будуть оцінені. редагувати: Оскільки я розмістив запитання, chl люб'язно вказав на статтю [2] Friedman …

4
Чи виконується нерівність трикутника для цих відстаней на основі кореляції?
Для ієрархічної кластеризації я часто бачу наступні дві "метрики" (вони точно не говорять) для вимірювання відстані між двома випадковими змінними і : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) & = …

4
Що робити, коли немає точки ліктя для кластеризації kmeans
Я дізнався, що, вибираючи декілька кластерів, слід шукати точку ліктя для різних значень K. Я побудував графіки значень inssss для значень k від 1 до 10, але я не бачу чіткого ліктьовий. Що ти робиш у такому випадку?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.