Що стосується непідконтрольного навчання (наприклад, кластеризації), чи є які-небудь показники для оцінки ефективності?
Що стосується непідконтрольного навчання (наприклад, кластеризації), чи є які-небудь показники для оцінки ефективності?
Відповіді:
У певному сенсі я думаю, що це питання є невиправданим. Я говорю це, тому що від того, наскільки добре працює той чи інший непідконтрольний метод, багато в чому залежатиме від того, чому в першу чергу ви навчаєтесь без нагляду, тобто чи добре працює метод у контексті вашої кінцевої мети? Очевидно, це не зовсім вірно, люди працюють над цими проблемами і публікують результати, які включають якусь оцінку. Я викладу кілька підходів, з якими я знайомий нижче.
Хорошим ресурсом (з посиланнями) для кластеризації є сторінка документації sklearn, Оцінка ефективності кластеризації . Це стосується декількох методів, але всі, окрім одного, коефіцієнт силуету, передбачають, що ярлики основної правди доступні. Цей метод також згадується у питанні Оцінювальний захід кластеризації , пов'язаний у коментарях до цього питання.
Якщо ваш непідконтрольний метод навчання є імовірнісним, ще одним варіантом є оцінка певної міри ймовірності (ймовірність журналу, здивування і т. Д.) За витриманими даними. Мотивація тут полягає в тому, що якщо ваш непідконтрольний метод навчання призначає високу ймовірність аналогічним даним, які не використовувались для встановлення параметрів, то він, ймовірно, зробив хорошу роботу з фіксації розподілу інтересів. Домен, де зазвичай використовується такий тип оцінки, - це мовне моделювання.
Останній варіант, який я зазначу, - це використання підконтрольного учня для відповідного допоміжного завдання. Якщо метод без нагляду виробляє приховані змінні, ви можете вважати ці латентні змінні як представлення вхідних даних. Таким чином, ці латентні змінні доцільно використовувати як вхід для керованого класифікатора, який виконує певну задачу, пов’язану з доменом, з якого дані. Виконання контрольованого методу може потім слугувати сурогатом для ефективності непідконтрольного учня. Це, по суті, налаштування, яке ви бачите в більшості робіт з навчання представництву.
Цей опис, мабуть, трохи неясний, тому я наведу конкретний приклад. Майже вся робота з вивчення подання слів використовує такий підхід для оцінювання:
Для прикладу такого підходу в дії дивіться статтю Навчальні машини з обмеженою діяльністю Больцмана щодо спостереження за словами Даля та ін.