Відповіді:
Загалом, у класифікації ви маєте набір попередньо визначених класів і хочете знати, до якого класу належить новий об’єкт.
Кластеризація намагається згрупувати набір об’єктів і виявити, чи існує певна залежність між об'єктами.
У контексті машинного навчання класифікація - це нагляд за навчанням, а групування - непідвладним навчанням .
Також ознайомтеся з Класифікацією та кластеризацією у Вікіпедії.
Якщо ви поставили це запитання будь-яким особам, що вивчають дані або машинне навчання, вони будуть використовувати термін під контролем навчання та непідконтрольне навчання, щоб пояснити вам різницю між кластеризацією та класифікацією. Тож дозвольте спочатку пояснити вам ключове слово під наглядом та без нагляду.
Контрольоване навчання: припустимо, у вас є кошик, і він наповнений свіжими фруктами, і ваше завдання - організувати однотипні фрукти в одному місці. припустимо, фрукти - це яблуко, банан, вишня та виноград. тож ви вже знаєте з попередньої роботи, що форму кожного плоду, так що легко розташувати один і той же вид фруктів в одному місці. тут Ваша попередня робота називається підготовленими даними в обробці даних. значить, ви вже дізнаєтесь про речі з ваших підготовлених даних. Це через те, що у вас є змінна відповідь, яка говорить вам, що якщо у деяких фруктів є такі і такі особливості, це виноград, як це для кожного фрукта.
Цей тип даних ви отримаєте з підготовлених даних. Цей тип навчання називають наглядовим навчанням. Ця проблема вирішення типу підпадає під Класифікація. Таким чином, ви вже вивчаєте речі, щоб ви могли впевнено працювати.
без нагляду: припустимо, у вас є кошик, і він наповнений деякими свіжими фруктами, і ваше завдання - організувати однотипні фрукти в одному місці.
Цього разу ви нічого не знаєте про ці фрукти, ви вперше бачите ці фрукти, то як ви будете влаштовувати один і той же тип фруктів.
Перше, що ви зробите, це взяти фрукти, і ви оберете будь-який фізичний характер цього конкретного фрукта. припустимо, ти взяв колір.
Тоді ви будете розташовувати їх за кольором, тоді групи будуть щось подібне. ЧЕРВОНА КОЛІРНА ГРУПА: яблука та вишні. GREEN COLOR GROUP: банани та виноград. тож тепер ви візьмете ще один фізичний персонаж як розмір, тож тепер групи будуть щось подібне. КРАСНИЙ КОЛІР І ВЕЛИКИЙ РОЗМІР: яблуко. КРАСНИЙ КОЛІР І МАЛИЙ РОЗМІР: плоди вишні. ЗЕЛЕНИЙ КОЛІР І ВЕЛИКИЙ РОЗМІР: банани. ЗЕЛЕНИЙ КОЛІР І МАЛИЙ РОЗМІР : виноград. робота виконана щасливим закінченням.
тут ви раніше нічого не дізнавались, означає відсутність даних поїздів і змінну відповіді. Цей тип навчання відомий без нагляду за навчанням. кластеризація підпадає під навчання без нагляду.
+ Класифікація: вам надаються нові дані, ви повинні встановити для них нову мітку.
Наприклад, компанія хоче класифікувати своїх потенційних клієнтів. Коли приходить новий клієнт, він повинен визначити, це клієнт, який збирається купувати їхню продукцію чи ні.
+ Кластеризація: вам надається набір транзакцій з історії, які записували, хто що купував.
Використовуючи методи кластеризації, ви можете визначити сегментацію своїх клієнтів.
Я впевнений, що деякі з вас чули про машинне навчання. Десяток з вас може навіть знати, що це таке. І пару з вас, можливо, теж працювали з алгоритмами машинного навчання. Бачите, куди це йде? Не дуже багато людей знайомі з технологією, яка буде абсолютно необхідною через 5 років. Сірі - це машинне навчання. Alexa Amazon - це машинне навчання. Системи рекомендування рекламних та торгових товарів - це машинне навчання. Спробуємо розібратися в машинному навчанні за допомогою простої аналогії дворічного хлопчика. Для задоволення назвемо його Кайло Рен
Припустимо, Кайло Рен побачив слона. Що скаже йому його мозок? (Пам'ятайте, що він має мінімальну здатність до мислення, навіть якщо він є наступником Вейдера). Його мозок скаже йому, що він побачив велику рухому істоту, яка була сірого кольору. Він бачить кота поруч, і його мозок каже йому, що це маленьке рухоме створіння, яке має золотистий колір. Нарешті, він бачить поруч світлу шаблю, і його мозок каже йому, що це неживий предмет, з яким він може грати!
Його мозок в цей момент знає, що шабля відрізняється від слона і кота, тому що шабля - це щось, з чим грати і не рухається самостійно. Його мозок може це зрозуміти, навіть якщо Кайло не знає, що означає рухомість. Це просте явище називається кластеризацією.
Машинне навчання - це не що інше, як математична версія цього процесу. Багато людей, які вивчають статистику, зрозуміли, що вони можуть змусити деякі рівняння працювати так само, як працює мозок. Мозок може скупчувати подібні об'єкти, мозок може вчитися на помилках, а мозок може навчитися визначати речі.
Все це можна представити статистикою, а комп'ютерне моделювання цього процесу називається Machine Learning. Для чого нам потрібне комп'ютерне моделювання? адже комп’ютери можуть робити важку математику швидше, ніж людський мозок. Я хотів би зайнятися математичною / статистичною частиною машинного навчання, але ви не хочете стрибати, не спершу очищаючи деякі поняття.
Повернемося до Kylo Ren. Скажімо, Кайло бере шаблю і починає грати з нею. Він випадково потрапляє на штурмовика, і штурмовик отримує травми. Він не розуміє, що відбувається, і продовжує грати. Далі він б’є кота, і кішка отримує травму. Цього разу Кайло впевнений, що зробив щось погане, і намагається бути дещо обережним. Але зважаючи на його погані навички шаблі, він б’є слона і абсолютно впевнений, що він потрапив у біду. Після цього він стає надзвичайно обережним, і лише навмисно б’є свого батька, як ми бачили в Силі Пробуджується !!
Весь цей процес навчання з вашої помилки може бути змішаний рівняннями, де почуття робити щось не так представлено помилкою або вартістю. Цей процес виявлення того, що не робити з шаблею, називається Класифікацією. Кластеризація та класифікація - це абсолютні основи машинного навчання. Давайте розглянемо різницю між ними.
Кайло розмежовував між тваринами та легкою шаблею, оскільки його мозок вирішив, що світлові шаблі не можуть рухатись самі по собі і, отже, різні. Рішення ґрунтувалося виключно на присутніх об'єктах (даних) і не було надано зовнішньої допомоги чи порад. На відміну від цього, Кайло розмежовував важливість бути обережними при легкій шаблі, спочатку спостерігаючи, що може вдарити в предмет. Рішення не ґрунтувалося повністю на шаблі, а на тому, що воно може зробити для різних об'єктів. Словом, тут була якась допомога.
Через таку різницю у навчанні кластеризацією називають непідконтрольним методом навчання, а Класифікацію називають методом навчання під наглядом. Вони дуже відрізняються в світі машинного навчання і часто диктуються типом наявних даних. Отримати мічені дані (або речі, які допомагають нам вчитися, як, наприклад, штормоносець, слон та кішка) у справі Кіло, часто непросто і стає дуже складним, коли дані, які потрібно диференціювати, є великими. З іншого боку, навчання без міток може мати свої недоліки, як, наприклад, не знати, що таке назви етикетки. Якби Кайло навчився бути обережним з шаблею без будь-яких прикладів чи допомоги, він би не знав, що це буде робити. Він би просто знав, що це не передбачається робити. Це якась кульгава аналогія, але ви розумієте!
Ми тільки починаємо з машинного навчання. Сама класифікація може бути класифікацією безперервних чисел або класифікацією міток. Наприклад, якби Kylo довелося класифікувати висоту кожного штурмовика, було б багато відповідей, оскільки висоти можуть бути 5,0, 5,01, 5,011 і т.д. матиме дуже обмежені відповіді. Фактично їх можна представити простими числами. Червоний може бути 0, синій - 1, а зелений - 2.
Якщо ви знаєте основну математику, ви знаєте, що 0,1,2 і 5.1,5.01,5.011 різні і називаються дискретними і безперервними числами відповідно. Класифікація дискретних чисел називається логістичною регресією, а класифікація безперервних чисел називається регресією. Логістична регресія також відома як категорична класифікація, тому не плутайте, коли ви читаєте цей термін в іншому місці
Це було дуже базовим вступом до машинного навчання. Я зупинюсь на статистичній стороні в наступному своєму дописі. Будь ласка, повідомте мене, якщо мені потрібні виправлення :)
Друга частина розміщена тут .
Є чи привласнення визначених класів до новим спостереженнями , на основі навчання на прикладах.
Це одне з ключових завдань у машинному навчанні.
Хоча в народі відхиляється як "класифікація без нагляду", це зовсім інше.
На відміну від того, чому навчать вас багато машинних слухачів, справа не в призначенні об’єктів "класів", а без їх попереднього визначення. Це дуже обмежений погляд на людей, які зробили занадто багато класифікації; типовий приклад, якщо у вас є молоток (класифікатор), все для вас виглядає як цвях (проблема класифікації) . Але й тому, що люди з класифікацією не піддаються кластеризації.
Натомість розгляньте це як відкриття структури . Завдання кластеризації - знайти структуру (наприклад, групи) у ваших даних, про яку ви раніше не знали . Кластеризація пройшла успішно, якщо ви дізналися щось нове. Не вдалося, якщо ви отримали лише ту структуру, яку ви вже знали.
Кластерний аналіз є ключовим завданням обміну даними (і некрасивого каченя в машинному навчанні, тому не слухайте машиністів, які відмовляються від кластеризації).
Це було повторено вгору та вниз по літературі, але непідконтрольне навчання - це все . Його не існує, але це оксиморон, як "військова розвідка".
Або алгоритм вчиться на прикладах (тоді це "контрольоване навчання"), або він не вчиться. Якщо всі методи кластеризації "навчаються", то обчислення мінімальної, максимальної та середньої кількості набору даних також "непідконтрольне навчання". Тоді будь-яке обчислення «засвоїло» його вихід. Таким чином, термін «непідконтрольне навчання» абсолютно безглуздий , він означає все і нічого.
Однак деякі алгоритми "непідконтрольного навчання" потрапляють до категорії оптимізації . Наприклад, k-засоби - це оптимізація з найменшими квадратами. Такі методи є всією статистикою, тому я не думаю, що нам потрібно називати їх "непідвладним навчанням", а натомість слід продовжувати називати їх "проблемами оптимізації". Це точніше і змістовніше. Існує безліч алгоритмів кластеризації, які не передбачають оптимізації, і які не добре вписуються в парадигми машинного навчання. Тож перестаньте стискати їх там під парасолькою "без нагляду за навчанням".
Існує деяке "навчання", пов'язане з кластеризацією, але це не програма, яка вчиться. Саме користувач повинен дізнатися нові речі про свій набір даних.
За допомогою кластеризації ви можете згрупувати дані з бажаними властивостями, такими як число, форма та інші властивості видобутих кластерів. Тоді як у класифікації фіксується кількість та форма груп. Більшість алгоритмів кластеризації задають кількість кластерів як параметр. Однак існують деякі підходи до з'ясування відповідної кількості кластерів.
Перш за все, як і багато відповідей, тут зазначається: класифікація - це нагляд за навчанням, а кластеризація - без нагляду. Це означає:
Класифікація потребує мічених даних, щоб класифікатори могли навчатись за цими даними, а після цього розпочати класифікацію нових небачених даних на основі того, що він знає. Непідконтрольне навчання, як кластеризація, не використовує мічені дані, і на самом деле це виявлення внутрішніх структур у таких групах даних.
Ще одна відмінність між обома методами (пов'язаними з попередньою) полягає в тому, що класифікація є формою дискретної регресійної проблеми, де вихід є категорично залежною змінною. Тоді як вихід кластеризації дає набір підмножин, що називаються групами. Спосіб оцінювання цих двох моделей також відрізняється з тієї ж причини: при класифікації вам часто доводиться перевіряти точність і згадувати такі речі, як накладання і недостатність тощо. Ці речі підкажуть, наскільки хороша модель. Але для кластеризації вам зазвичай потрібне бачення та експерт для тлумачення того, що ви знайдете, тому що ви не знаєте, який тип структури у вас є (тип групи чи кластер). Ось чому кластеризація належить до дослідницького аналізу даних.
Нарешті, я б сказав, що додатки - це головна відмінність обох. Класифікація, як сказано в цьому слові, використовується для розмежування випадків, що належать до класу чи іншого, наприклад, чоловіка чи жінки, кішки чи собаки тощо. Кластеризація часто використовується для діагностики медичних захворювань, виявлення закономірностей, тощо.
Класифікація : передбачення результатів дискретного виводу => відображення вхідних змінних на дискретні категорії
Популярні випадки використання:
Класифікація електронної пошти: спам або не-спам
Санкційний кредит для клієнта: Так, якщо він здатний сплатити EMI за суму санкціонованої позики. Ні, якщо він не може
Ідентифікація ракових пухлинних клітин: це критична чи некритична?
Аналіз почуття твітів: чи твіт позитивний, чи негативний, чи нейтральний
Класифікація новин: Класифікуйте новини на один із заздалегідь визначених класів - Політика, Спорт, Здоров'я тощо
Кластеризація : це завдання згрупувати набір об'єктів таким чином, що об’єкти в одній групі (званій кластер) більше схожі (в деякому сенсі) один на одного, ніж на інші групи (кластери)
Популярні випадки використання:
Маркетинг: Відкрийте сегменти клієнтів для маркетингових цілей
Біологія: Класифікація між різними видами рослин і тварин
Бібліотеки: Кластеризація різних книг на основі тем та інформації
Страхування: визнати клієнтів, їхні поліси та виявити шахрайство
Планування міста: Складіть групи будинків та вивчіть їх значення на основі їх географічного розташування та інших факторів.
Дослідження землетрусів: Визначте небезпечні зони
Список літератури:
Класифікація - Прогнозує категоричні мітки класів - Класифікує дані (будує модель) на основі навчального набору та значень (мітки класу) в атрибуті мітки класу - Використовує модель при класифікації нових даних
Кластер: колекція об'єктів даних - подібні один до одного в межах одного кластера - несхожі на об'єкти в інших кластерах
Кластеризація спрямована на пошук груп даних. "Кластер" - це інтуїтивно зрозуміле поняття і не має математично суворого визначення. Члени одного кластера повинні бути схожими один на одного та відрізнятися від членів інших кластерів. Алгоритм кластеризації працює на немеченому наборі даних Z і виробляє на ньому розділ.
Для класів та міток класів клас містить подібні об'єкти, тоді як об’єкти різних класів відрізняються. Деякі класи мають чітке значення, а в найпростішому випадку взаємно виключають. Наприклад, під час перевірки підпису підпис є справжнім або підробленим. Справжній клас - це один із двох, незалежно від того, що ми могли б не змогти правильно відгадати із спостереження за певним підписом.
Кластеризація - це метод групування об'єктів таким чином, що об’єкти з подібними ознаками збираються разом, а об'єкти з різними ознаками розпадаються. Це загальна методика статистичного аналізу даних, що використовується в машинному навчанні та обробці даних.
Класифікація - це процес категоризації, коли об’єкти розпізнаються, диференціюються та розуміються на основі навчального набору даних. Класифікація - це контрольована методика навчання, де доступний навчальний набір та правильно визначені спостереження.
З книги Mahout в дії, і я думаю, що це дуже добре пояснює:
Алгоритми класифікації пов'язані з, але все ще досить відмінними від алгоритмів кластеризації, такими як алгоритм k-засобів.
Алгоритми класифікації - це форма керованого навчання, на відміну від некерованого навчання, що відбувається з алгоритмами кластеризації.
Алгоритм навчання під контролем - це приклад, який містить бажане значення цільової змінної. Непідтримувані алгоритми не дають бажаної відповіді, а натомість повинні знайти щось правдоподібне самостійно.
Один лайнер для класифікації:
Класифікація даних на заздалегідь визначені категорії
Один вкладиш для кластеризації:
Групування даних у набір категорій
Ключова різниця:
Класифікація - це взяття даних і їх розміщення в заздалегідь визначені категорії, а в Кластеризація набір категорій, в які потрібно згрупувати дані, заздалегідь невідомий.
Висновок:
Я написав довгий пост на ту саму тему, який ви можете знайти тут:
Існує два визначення при обробці даних "Супервізор" та "Непідконтрольний". Коли хтось каже комп'ютеру, алгоритму, коду, ... що ця річ схожа на яблуко, а річ - як апельсин, це керується навчанням та використовує контрольоване навчання (як теги для кожного зразка в наборі даних) для класифікації дані, ви отримаєте класифікацію. Але з іншого боку, якщо ви дозволите комп’ютеру з’ясувати, що це таке, і розмежувати особливості даного набору даних, насправді навчання без нагляду, для класифікації набору даних це буде називатися кластеризацією. У цьому випадку дані, які подаються в алгоритм, не мають тегів, і алгоритм повинен знаходити різні класи.
Машинне навчання або AI значною мірою сприймається завданням, яке воно виконує / виконує.
На мою думку, роздумуючи про кластеризацію та класифікацію поняття, яку вони досягають, дійсно може допомогти зрозуміти різницю між ними.
Кластеризація - це групування речей, а класифікація - це, вид, етикетка.
Припустимо, ви перебуваєте в залі для вечірок, де всі чоловіки в костюмах, а жінки - в сукнях.
Тепер ви задаєте своєму другові кілька питань:
Q1: Гей, чи можете ви мені допомогти згрупувати людей?
Можливі відповіді, які може дати ваш друг:
1: Він може групувати людей за ознакою статі, чоловіка чи жінки
2: Він може групувати людей на основі одягу, 1 в костюмах, в інших халатах
3: Він може групувати людей за кольором їх волосся
4: Він може групувати людей залежно від їх вікової групи, тощо, тощо.
Їх численні способи твій друг може виконати це завдання.
Звичайно, ви можете впливати на його процес прийняття рішень, надаючи додаткові матеріали, такі як:
Чи можете ви допомогти мені згрупувати цих людей за статтю (або віковою групою, кольором волосся, одягом тощо)
Q2:
Перед Q2 потрібно виконати попередню роботу.
Ви повинні навчити або повідомити свого друга, щоб він міг прийняти зважене рішення. Отже, скажімо, ви сказали своєму другові, що:
Люди з довгим волоссям - Жінки.
Люди з коротким волоссям - чоловіки.
Q2. Тепер ви вказуєте на Особу з довгим волоссям і запитуєте свого друга - це чоловік чи жінка?
Єдина відповідь, яку ви можете очікувати, - це жінка.
Звичайно, в партії можуть бути чоловіки з довгими волосками і жінки з короткими волосками. Але відповідь правильна, виходячи з навчання, яке ви надали своєму другові. Ви можете вдосконалити процес, навчивши більше свого друга про те, як розмежовувати це.
У наведеному вище прикладі
Q1 представляє завдання, яке досягає Кластеризація.
У кластері ви надаєте дані (люди) в алгоритм (ваш друг) і пропонуєте їм згрупувати дані.
Тепер алгоритм вирішує, який найкращий спосіб групувати? (Стать, Колір або Вікова група).
Знову ж таки, ви можете точно впливати на рішення, прийняте алгоритмом, надаючи додаткові входи.
Q2 являє собою завдання, яке досягає Класифікація.
Там ви даєте своєму алгоритму (вашому другові) деякі дані (Люди), які називаються навчальними даними, і змушуєте його дізнатися, які дані відповідають якій мітці (Чоловік чи Жінка). Потім ви вказуєте свій алгоритм на певні дані, які називаються Тестовими даними, і запитуєте його визначити, чоловічий чи жіночий. Чим краще ваше навчання, тим краще прогнозування.
А попередня робота в Q2 або Класифікації - це не що інше, як просто навчання вашої моделі, щоб вона змогла навчитися диференціюватися. У кластеризації чи Q1 ця попередня робота є частиною групування.
Сподіваюся, що це комусь допоможе.
Дякую
Класифікація - Набір даних може мати різні групи / класи. червоний, зелений і чорний. Класифікація спробує знайти правила, які поділяють їх на різні класи.
Кастинг- якщо набір даних не має класу, і ви хочете помістити їх у якийсь клас / групування, ви робите кластеризацію. Фіолетові кола вгорі.
Якщо правила класифікації не є хорошими, у вас буде неправильна класифікація в тестуванні, або правила ур є недостатньо правильними.
якщо кластеризація не є доброю, у вас буде багато людей, тобто. точки даних, не в змозі потрапити ні в один кластер.
Ключові відмінності між класифікацією та кластеризацією: Класифікація - це процес класифікації даних за допомогою міток класів. З іншого боку, кластеризація схожа на класифікацію, але немає попередньо визначених міток класів. Класифікація орієнтована на контрольоване навчання. На відміну від кластеризації, також відомо як навчання без нагляду. Навчальний зразок надається в методі класифікації, тоді як у випадку кластеризації навчальних даних не наводиться.
Сподіваюся, це допоможе!
Я вважаю, що класифікація - це класифікація записів у наборі даних на попередньо визначені класи або навіть визначення класів у дорозі. Я розглядаю це як необхідну умову для будь-яких цінних даних, мені подобається думати про це при непідконтрольному навчанні, тобто людина не знає, що він шукає під час видобутку даних і класифікація служить гарною відправною точкою
Кластеризація на іншому кінці підпадає під нагляд за навчанням, тобто можна знати, які параметри шукати, співвідношення між ними разом із критичними рівнями. Я вважаю, що це потребує певного розуміння статистики та математики