Як вибрати метод кластеризації? Як перевірити рішення кластера (гарантувати вибір методу)?

Однією з найбільш важливих проблем кластерного аналізу є те, що, можливо, нам доведеться робити різні висновки, коли базуватися на різних методах кластеризації (включаючи різні методи зв’язку в ієрархічній кластеризації).

Мені хотілося б дізнатися вашу думку з цього приводу - який метод ви виберете та як. Можна сказати, «найкращий метод кластеризації - це те, що дає правильну відповідь»; але я можу поставити під сумнів, що кластерний аналіз повинен бути непідвладним методом - тож як я можу знати, який метод чи зв'язок є правильною відповіддю?

Загалом: чи достатньо надійним є групування, на яке можна покластися? Або нам потрібен другий метод, щоб отримати спільний результат, який базується на обох?

Моє запитання не лише щодо можливих способів перевірити / оцінити ефективність кластеризації, але й більш широке - на основі чого ми вибираємо / надаємо перевагу одному методу / алгоритму кластеризації над іншим. Крім того, чи є загальні попередження , про які нам варто оглянути, коли вибираємо метод кластеризації наших даних?

Я знаю, що це дуже загальне питання і дуже важко відповісти. Мені хотілося б знати, чи є у вас якийсь коментар, будь-яка порада чи будь-яка пропозиція, щоб дізнатися більше про це.

— Учень
джерело

Перевірте також це подібне питання.

— ttnphns

І цей .

— ttnphns

Деякі посилання, зокрема про внутрішню та зовнішню перевірку: це . І це . І це . І це . І це . І це . І яндер . І шукайте більше.

— ttnphns

Відповіді:

Часто кажуть, що не існує іншої аналітичної методики настільки сильно, як «як сієш, ти будеш косити», як це кластерний аналіз.

Я можу уявити собі численні виміри або аспекти "правильності" того чи іншого методу кластеризації :

Метафора кластеру . "Я віддав перевагу цьому методу, оскільки він становить такі кластери (або такий спосіб), який відповідає моїй концепції кластеру в моєму конкретному проекті" . Кожний алгоритм кластеризації або субальгоритм / метод передбачає його відповідну структуру / побудову / форму кластера. Що стосується ієрархічних методів, я спостерігав це в одному з пунктів тут , а також тут. Тобто одні методи дають кластери, які є прототипно "типами", інші дають "кола [за інтересами]", інші ж "[політичні] платформи", "класи", "ланцюги" тощо. Виберіть той метод, який метафора кластера вам підходить. Наприклад, якщо я розглядаю сегменти своїх клієнтів як типи - більш-менш сферичні форми з ущільненням в середині, я чітко виберу метод з’єднання Варда або K-засоби, але ніколи не єдиний метод зв'язку. Якщо мені потрібен фокусний представницький пункт, я міг би використати медоїдний метод. Якщо мені потрібно екранувати точки, щоб вони були основними та периферійними представниками, я міг би використовувати підхід DBSCAN.
Припущення щодо даних / методів . "Я віддав перевагу цьому методу, оскільки моя природа або формат даних схильні до нього" . Цей важливий і величезний момент також згадується у моєму посиланні вище. Різні алгоритми / методи можуть зажадати для них різного типу даних або застосовувати різні міри близькості до даних, і навпаки, різні дані можуть вимагати різних методів. Існують методи кількісні та методи якісних даних. Кількісні + якісні ознаки суміші різко звужують сферу вибору серед методів. Уорд або К-засобиґрунтуються - явно чи неявно - на (квадраті) мірі близькості евклідової відстані, а не на довільній мірі. Бінарні дані можуть вимагати спеціальних заходів подібності, які, в свою чергу, серйозно поставлять під сумнів використання деяких методів, наприклад, засобів Уорда або К-засобів. Для великих даних можуть знадобитися спеціальні алгоритми або спеціальні реалізації.
$^1$ про), тому висока достовірність може бути частково обумовлена випадковою особливістю даного набору даних; наявність тестового набору даних завжди корисне.]
Зовнішня дійсність . "Я віддав перевагу цьому методу, оскільки він дав мені кластери, які відрізняються за своїм фоном або кластери, які відповідають справжнім, які я знаю" . Якщо кластерний розділ представляє кластери, які чітко відрізняються за деякими важливими характеристиками (тобто не брали участь в аналізі кластера), то це актив для цього методу, який створив розділ. Використовуйте будь-який аналіз, який застосовується для перевірки різниці; також існує ряд корисних критеріїв зовнішньої кластеризації(Rand, F-мера тощо). Інший варіант випадку зовнішньої перевірки - це коли ви якось знаєте справжні кластери у ваших даних (знаєте "основну правду"), наприклад, коли ви створювали кластери самостійно. Тоді, наскільки точно ваш метод кластеризації здатний розкрити реальні кластери - це міра зовнішньої обґрунтованості.
Перехресний термін дії . "Я віддав перевагу цьому методу, оскільки він дає мені дуже схожі кластери на еквівалентних зразках даних або добре екстраполює на такі вибірки" . Існують різні підходи та їх гібриди, деякі більш здійсненні з деякими методами кластеризації, а інші з іншими методами. Два основні підходи - перевірка стійкості та узагальненняперевірити. Перевіряючи стійкість методу кластеризації, один випадковим чином розбиває або перекомпонує дані в частково перетинаються або повністю роз'єднані набори і робить кластеризацію на кожному; потім співставляє і порівнює рішення wrt з деякою новою характеристикою кластера (наприклад, центральним місцем тенденції кластера), чи є вона стабільною для множин. Перевірка узагальненості передбачає здійснення кластеризації на наборі поїздів, а потім використання його кластерної характеристики або правила для призначення об'єктів тестового набору, а також виконання кластеризації на тестовому наборі. Потім порівнюються результати результатів присвоєння та члени кластеру результатів об'єктів тестового набору.
Інтерпретація . "Я віддав перевагу цьому методу, тому що він дав мені кластери, які, пояснили, є найбільш переконливими, що в світі є сенс" . Це не статистично - це ваша психологічна перевірка. Наскільки значущими є результати для вас, домену та, можливо, аудиторії / клієнта. Виберіть метод, який дає найбільш інтерпретаційні, гострі результати.
Багатість . Деякі дослідження регулярно, і всі дослідження періодично говорять, що "я віддав перевагу цьому методу, оскільки він дав мої дані аналогічні результати з низкою інших методів серед усіх тих, кого я досліджував" . Це евристична, але сумнівна стратегія, яка передбачає існування досить універсальних даних або досить універсального методу.

Точки 1 і 2 є теоретичними і передують отриманню результату; Винятково покладатися на ці моменти - це зарозуміла, впевнена в собі стратегія дослідження. Точки 3, 4 та 5 є емпіричними та слідують за результатом; Винятково покладатися на ці моменти - це непомітна, випробувальна дослідницька стратегія. Пункт 6 є креативним, тобто означає, що він заперечує будь-який результат, щоб спробувати його омолодити. Пункт 7 - лояльний мауайз-фой.

Бали 3 - 7 також можуть бути суддями у виборі "найкращої" кількості кластерів .

$^1$

— ttnphns
джерело

Мені дуже подобаються внутрішні міри дійсності, як сума внутрішньокластерних дисперсій у K-засобах та ієрархічній кластеризації Уорда, а також індекси Данна. Вони не залежать від даних, а іноді навіть незалежні від алгоритму кластеризації, хоча деякі з них мають сенс лише за допомогою конкретних алгоритмів.

— Дуглас Де Ріццо Менегетті

@DouglasDeRizzoMeneghetti Я не згоден. Вони не є незалежними від даних (вони роблять дуже вагомі припущення щодо ваших даних, таких як лінійність та еквівалентність атрибутів), і не залежать від алгоритму кластеризації. Насправді кожен внутрішній захід - це власний алгоритм кластеризації (ви можете оптимізувати цю функцію - її просто занадто дорого робити).

— Аноні-Мус

Я розумію, що деякі заходи внутрішньої дійсності, такі як сума міжмісних кластерних дисперсій, мають кращі результати, якщо членство в кластері було набуте методом кластеризації, який має тенденцію до мінімізації суми дисперсій у внутрішньому кластері, і що міра валідності, як Данн індекси припускають, що хороші кластери є компактними і далеко один від одного (навіть якщо інтерпретації "компактний" і "далеко один від одного" залишаються відкритими для інтерпретації), але факт, що ви можете обчислити ці заходи лише за допомогою значень функцій та членства кластерів у елементи роблять їх досить універсальними.

— Дуглас Де Ріццо Менегетті

В основному є критерії червоного прапора . Властивості даних, які говорять про те, що певний підхід точно не вдасться.

якщо ви не знаєте, що означає ваші дані, перестаньте їх аналізувати. ви просто вгадуєте тварин у хмарах.
якщо атрибути різняться за масштабом і нелінійні або перекошені. це може зіпсувати ваш аналіз, якщо ви не маєте дуже гарного уявлення про відповідну нормалізацію. Зупиніться та навчіться розуміти ваші риси, ще рано зараховуватися.
якщо кожен атрибут еквівалентний (однаковий масштаб) і лінійний, і ви хочете квантувати свій набір даних (і помилка з найменшим квадратом має значення для ваших даних), тоді k-означає варто спробувати. Якщо ваші атрибути різного роду та масштабу, результат недостатньо визначений. Контрприклад: вік та дохід. Дохід дуже перекошений, і x years = y dollarце нісенітниця.
якщо у вас є чітке уявлення про те, як кількісно оцінити подібність чи відстань ( змістовно ; можливість обчислити якесь число недостатньо), то ієрархічна кластеризація та DBSCAN - хороший вибір. Якщо ви не знаєте, як оцінити подібність, вирішіть цю проблему спочатку.

Ви бачите, що найпоширеніша проблема полягає в тому, що люди намагаються скинути свої необроблені дані в кластеризацію, коли їм потрібно спочатку зрозуміти і нормалізувати їх і з'ясувати подібність.

Приклади:

Пікселі зображення в просторі RGB. Найменші квадрати мають певний сенс, і всі атрибути порівнянні - k-засоби - хороший вибір.
Географічні дані: найменші квадрати не дуже підходять. з’являться аутлієри. але відстань дуже значуща. Використовуйте DBSCAN, якщо у вас багато шуму, або HAC (ієрархічна агломераційна кластеризація), якщо у вас дуже чисті дані.
Види, що спостерігаються в різних середовищах проживання. Найменші квадрати сумнівні, але, наприклад, подібність Жакарда має сенс. Напевно, у вас є лише кілька спостережень і жодних "помилкових" середовищ існування - використовуйте HAC.

— Аноні-Мус
джерело

+1. Я прошу лише знайти інший вираз замість stop criteria. Бо, як відомо, "правила зупинки" або "критерії зупинки" є синонімом "критеріїв внутрішнього кластеризації" в області ієрархічної кластеризації. Отже, це зайнятий термін. Але ви маєте на увазі ці слова у різному сенсі у відповіді, і це може бентежити читача.

— ttnphns

Як щодо "критеріїв червоного прапора"? Зупиняючи поріг для HAC, я бачу вашу думку.

— Аноні-Мус

Чудово для мене, приємний вибір.

— ttnphns

У пунктах 2,3 ви кажете (non)linear attributes. Що ви маєте на увазі? Яким чином "лінійний" атрибут? або ви говорите про лінійні відносини , тобто еліпсоїдальні (а не вигнуті) форми кластерів?

— ttnphns

Дані, наприклад, з експоненціальним розподілом.

— Аноні-Мус

Я не думаю, що існує хороший офіційний спосіб зробити це; Я думаю, що хороші рішення - це ті, які мають сенс, по суті.

Звичайно, ви можете спробувати розділити дані та кластеризувати декілька разів і так одне, але тоді все ще залишається питання, який з них корисний.

— Пітер Флом - Відновити Моніку
джерело

Я думаю, що термін має сенс недостатньо підкреслити. Це також основний момент моєї відповіді - вам потрібно спершу зрозуміти свої дані.

— Аноні-Мус

@ Аноні-Мус, її надмір з вашого боку. Б'юсь об заклад, що люди, які не знають, як і не забувають "мати сенс" своїх даних, навряд чи відвідують цей сайт, і вони не задають таких хороших запитань, як той, хто тут задається.

— ttnphns

@ttnphns Я не знаю, як часто такі люди відвідують цей сайт, і вони, звичайно, не задають таких питань. Але багато людей очікують, що аналіз кластерів працює як функція Excel. Виберіть дані, натисніть "кластер" і вийдіть чарівні сегменти клієнтів. Яка ніколи не здається, що працює набагато краще, ніж випадково. Наприклад, цей користувач не зрозумів його даних: stats.stackexchange.com/q/195521/7828

— -Mousse