Керована кластеризація чи класифікація?


22

Друге питання полягає в тому, що я виявив, що в дискусії десь в Інтернеті говорив про "контрольовану кластеризацію", наскільки я знаю, кластеризація без нагляду, тож який саме сенс стоїть під "контрольованим кластеризацією"? Яка різниця щодо "класифікації"?

Про це багато посилань:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/papers/files/nips23/NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervid_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/papers/366.pdf

http://www.cs.cornell.edu/~tomf/publications/supervid_kmeans-08.pdf

http://jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf

тощо ...


будь ласка, дайте посилання на "обговорення десь в Інтернеті"
Atilla Ozgur

2
@AtillaOzgur є багато посилань, що говорять про керовану кластеризацію, я додав деякі з них до своєї публікації: [1]: cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf [2]: books.nips .cc / paper / files / nips23 / NIPS2010_0427.pdf [3]: engr.case.edu/ray_soumya/mlrg/… [4]: public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf [5] : machinelearning.org/proceedings/icml2007/papers/366.pdf [6]: jmlr.csail.mit.edu/papers/volume6/daume05a/daume05a.pdf
SHN

1
"Кластеризація" є синонімом "класифікації без нагляду", тому "контрольована кластеризація" є оксимороном. Хоча можна заперечити, що «Самоорганізуючі карти» - це техніка, що використовується під наглядом, що використовується для непідконтрольної класифікації, що було б найближчим до «кластеризованого контролю».
Дігіо

Наскільки я зрозумів, це "Ми використовуємо кластеризацію, щоб упорядкувати дані, щоб зробити їх готовими до подальшої обробки або, принаймні, зробити їх готовими до подальшого аналізу", тому те, що ми робимо при кластеризації, - поділити дані на клас A, B, C і так далі ... Отже, тепер ці дані контролюються певним чином. Тепер це залежить від вимоги, що ви хочете зробити з цими даними або як ці дані можуть бути корисними вам для операцій з класифікацією чи регресії. Виправте мене, якщо я помиляюся.
sak

Відповіді:


2

Моє наївне розуміння полягає в тому, що класифікація проводиться там, де у вас є визначений набір класів, і ви хочете віднести нову річ / набір даних до одного із зазначених класів.

Крім того, кластеризація не має з чого починати, і ви використовуєте всі дані (включаючи нову) для розділення на кластери.

Обидва використовують метрику відстані, щоб вирішити, як кластеризувати / класифікувати. Різниця полягає в тому, що класифікація заснована на раніше визначеному наборі класів, тоді як кластеризація визначає кластери на основі всіх даних.

Знову ж таки, я наївно розумію, що керована кластеризація все ще кластеризується на основі всіх даних і, таким чином, буде кластеризацією, а не класифікацією.

Насправді я впевнений, що теорія як кластеризації, так і класифікації взаємопов'язана.


Я смиренно не згоден. Ви припускаєте, що "класифікація" за визначенням і за замовчуванням є контрольованим процесом, що не відповідає дійсності. Класифікація поділяється на наглядові та непідконтрольні випадки, останні є синонімом кластеризації.
Дігіо

15

Я не думаю, що я знаю більше, ніж ви, але посилання, які ви розмістили, пропонують відповіді. Я візьму http://www.cs.cornell.edu/~tomf/publications/supervid_kmeans-08.pdf як приклад. В основному вони констатують: 1) кластеризація залежить від відстані. 2) для успішного використання k-засобів потрібна ретельно вибрана дистанція. 3) Давши навчальні дані у вигляді наборів елементів з їх бажаним розділенням, ми надаємо структурний метод SVM, який вивчає міру відстані, щоб k-засоби виробляли потрібні кластеризації.У цьому випадку є наглядова стадія кластеризації як з навчальними даними, так і з навчанням. Мета цього етапу - вивчити функцію дистанції, так що застосування кластеризації k-засобів з цією дистанцією буде, сподіваємось, оптимальним, залежно від того, наскільки добре дані тренувань нагадують домен програми. Усі звичні застереження, відповідні машинному навчанню та кластеризації, все ще застосовуються.

Подальше цитування із статті: Супервізована кластеризація - це завдання автоматичної адаптації алгоритму кластеризації за допомогою навчального набору, що складається з наборів елементів та повних розділів цих наборів елементів. . Це здається розумним визначенням.


Проблема просто: чому ви хочете навчитися вимірюванню відстані з набору мічених даних тренувань, а потім застосувати цю міру відстані методом кластеризації; чому б ви не просто використовували контрольований метод. Іншими словами, ви хочете зробити кластеризацію (тобто розділити ваш набір даних на кластери), але ви припускаєте, що у вас вже є повний потрібний розділ і ви будете використовувати його для вивчення вимірювання відстані, а потім застосувати кластеризацію до цього набору даних за допомогою цього вивченого відстань. У кращому випадку ви отримаєте ті самі розділи, які ви використовували для вивчення вимірювання відстані! У вас вже є
Shn

Якщо ви пишете ", тоді застосуйте кластеризацію до цієї бази даних" замінником ", а потім застосуйте кластеризацію для подібних наборів даних". Саме такий сценарій: в експерименті X ми маємо дані A і B. A призначений для кластеризації, B допомагає вивчити відстань. B встановлює золотий стандарт і його, мабуть, дорого отримати. У наступних експериментах X2, X3 .. ми отримуємо A, але не можемо дозволити отримати B.
micans

Гаразд, зараз, коли ви говорите "вивчити відстань" від набору даних B: ви маєте на увазі "вивчення деякого порогового значення відстані" або "вивчення функції метрики відстані" (свого роду параметризований показник несхожості)?
шн

1
Я маю на увазі другу, "вивчення метричної функції відстані". Докладніше, прочитавши, до речі, мою просту формулювання A та B вище можна знайти в цитованому рукописі: "Зважаючи на навчальні приклади наборів предметів з їх правильними кластеризаціями, мета полягає в тому, щоб дізнатися міру подібності, щоб майбутні набори предметів були згруповані подібним чином ».
міксани

1
Що ж, здається, що "наглядова кластеризація" дуже схожа на те, що називається "напівнаглядова кластеризація". До цих пір я не бачу різниці. До речі, в деяких інших роботах "кластеризація під наглядом" (напів)) не посилається на "створення модифікованої функції дистанції", яка використовується для кластеризації майбутніх наборів даних аналогічним чином; це швидше про "зміни самого алгоритму кластеризації" без зміни функції відстані!
шн

3

Деякі визначення:

Наглядова кластеризація застосовується на класифікованих прикладах з метою визначення кластерів, які мають високу щільність ймовірності, до одного класу.

Непідконтрольне кластеризація - це рамка навчання, що використовує конкретні об'єктні функції, наприклад функцію, яка мінімізує відстані всередині кластера, щоб утримувати кластер щільно.

Напівпідпорядкована кластеризація - це покращення алгоритму кластеризації за допомогою використання побічної інформації в процесі кластеризації.

Успіхи в нейронних мережах - ISNN 2010

Без використання занадто великого жаргону, оскільки я новачок у цій галузі, те, як я розумію, що знаходиться під контролем кластеризації, є тим менш таким:

У керованому кластерингу ви починаєте зверху вниз.з деякими заздалегідь визначеними класами, а потім, використовуючи підхід « знизу вгору», ви виявите, які об’єкти краще вписуються у ваші класи.

Наприклад, ви провели дослідження щодо улюбленого виду апельсинів у популяції.
З багатьох видів апельсинів ви виявили, що певний тип апельсинів є кращим.
Однак цей вид апельсина дуже делікатний і стійкий до інфекцій, змін клімату та інших екологічних агентів.
Тож ви хочете схрестити це з іншими видами, які дуже стійкі до цих образ. Ви виконуєте кілька експериментів, і закінчуєте, скажімо, сотні різних підтипів апельсинів. Тепер вас цікавлять саме ті підтипи, які ідеально відповідають характеристикам, описаним.
Потім ви вирушаєте в лабораторію і знайдете кілька генів, які відповідають за соковитий і солодкий смак одного типу, а також за стійкі можливості іншого типу.


Ви не хочете знову проводити те ж дослідження у своїй популяції ...
Ви знаєте властивості, які шукаєте, у вашому ідеальному апельсині.
Отже, ви запускаєте аналіз кластерів і вибираєте ті, які найкраще відповідають вашим очікуванням.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.