Очікувана найкраща ефективність на наборі даних

9

Скажіть, у мене є така проста проблема машинного навчання, як класифікація. Маючи деякі орієнтири у баченні чи розпізнаванні звуку, я, як людина, дуже хороший класифікатор. Тому я маю інтуїцію щодо того, наскільки хороший класифікатор може отримати.

Але з великою кількістю даних один момент полягає в тому, що я не знаю, наскільки хороший класифікатор, який я навчаю, можна отримати. Це дані, де я особисто не дуже хороший класифікатор (скажімо, класифікую настрій людини з даних ЕЕГ). Насправді неможливо зрозуміти, наскільки важкою є моя проблема.

Тепер, якщо мені постають проблеми з машинним навчанням, я хотів би дізнатися, наскільки добре я можу отримати. Чи існують принципові підходи до цього? Як би ти це зробив?

Візуалізувати дані? Почати з простих моделей? Почніть з дуже складних моделей і подивіться, чи зможу я переодягнутись? Що ви шукаєте, якщо хочете відповісти на це запитання? Коли ви перестаєте пробувати?

machine-learning

— байерж
джерело

6

Я не знаю, чи вважається це відповіддю ...

Це одна проблема, яка тримає вас в ночах. Чи можете ви побудувати кращу модель? Phd-комікси це добре підсумовує (я не знаю, чи мені дозволено завантажувати комікси, тому я просто пов’язав їх)

З мого особистого досвіду, здобутого участю у змаганнях з машинного навчання, тут є основним принципом.

Уявіть, що вам дано завдання з класифікації. Сядьте, замисліть штурм години чи менше, як би ви підійшли до проблеми та перегляньте сучасний стан у цій галузі. Побудуйте модель на основі цього дослідження, бажано тієї, яка, як відомо, є стабільною без надто великого налаштування параметрів. Отримані результати становитимуть приблизно 80% від максимально досяжних показників.

Це правило засноване на так званому принципі Парето , який також стосується оптимізації. Враховуючи проблему, ви можете створити рішення, яке працює досить швидко, але з цього моменту відношення вдосконалення до часових зусиль швидко падає.

Кінцеві слова: Коли я читаю статті про нові алгоритми класифікації, я сподіваюся, що автори порівнюють свою нову породу з такими «парето-оптимізованими» підходами, тобто очікую, що вони витратять розумну кількість часу, щоб зробити сучасний твір мистецтва (для деяких потрібна більш-менш оптимізація параметрів). На жаль, багато хто не робить цього.

— steffen
джерело

0

Загальноприйнятим способом є розгляд ROC та площі під нею (AUC). Обґрунтуванням цього підходу є те, що чим вище справжня позитивна ставка для певної помилкової позитивної ставки, тим краще класифікатор. Інтеграція за всіма можливими помилковими позитивними показниками дає вам загальну міру.

— Емре
джерело

3

Наскільки я зрозумів ОП, його питання - це НЕ вимірювання продуктивності класифікатора (що, сподіваємось, хороша оцінка для майбутньої очікуваної продуктивності), а те, наскільки хорошим можна отримати ВСЕ, тобто який максимум (не зовсім за метрику (AUC - 1 макс. або щось подібне), але для заданої проблеми)

— steffen

Так, це я мав на увазі.

— байерж

0

Якщо є спосіб для візуалізації даних, це найкращий сценарій, але не всі дані можна візуалізувати однаково, тому вам може знадобитися знайти власний спосіб проектувати дані, які допоможуть зрозуміти ваші дані. краще.

Однак, як правило, я зазвичай беру невеликий зразок даних, перетворюю їх у ARFF та пробую різні алгоритми кластеризації від WEKA. Потім я просто бачу, який алгоритм дає мені кращу матрицю плутанини. Це дає мені підказку щодо того, наскільки добре розділені класи, і дозволяє мені дослідити, чому саме цей алгоритм робить кращим для цих даних. Я також змінюю кількість кластерів (тобто я не просто використовую k = 2, я використовую k = 3, 4 тощо). Це дає мені уявлення, чи є фрагментація в даних, чи один клас фрагментованіший, ніж інший. Якщо ви поєднуєте навчальні та тестові точки разом для кластеризації, ви також можете виміряти, які кластери представлені вашими навчальними балами. Деякі кластери можуть бути занадто представлені, а деякі можуть бути недостатньо представленими, обидва можуть спричинити проблеми, які вивчають класифікатор.

Завжди перевіряйте свою точність тренувань. Якщо ваша точність тренувань не виглядає добре, то неправильно класифіковані навчальні бали також є великим підказом.

— ТеналіРаман
джерело