Який класифікатор є більш точним для класифікації SVM?


10

Я вивчаю класифікацію SVM і стикаюся з проблемою. Я не впевнений, чи є в цій дилемі термінологія для цього.

Припустимо, ми хотіли б класифікувати пацієнта за SVM за даними зразків здорових людей (обох статей) та людей з раком печінки (обох статей). Якщо ми позначимо вибірку здорових людей як 1 клас, а людей, хворих на рак, як клас 2, ми можемо навчити бінарний SVM і отримати класифікатор 1 для прогнозування будь-якого нового пацієнта. Тепер зображте інший сценарій. Припустимо, що ми спочатку розділимо всі вибірки за статтю перед класифікацією SVM. Для кожної статі ми досі класифікуємо здорових пацієнтів та хворих на рак у 2 класи та навчаємо бінарний SVM для отримання класифікатора 2 та класифікатора 3 для жіночих та чоловічих зразків відповідно. Питання в тому, чи є нова пацієнтка, який класифікатор, 1 або 2, слід використовувати для отримання більш точного прогнозу? Ось дилема аргументів, які я маю

(1) Коли кількість зразків велика, прогноз повинен бути більш точним. Виходячи з цього аргументу, класифікатор 1 здається хорошим вибором.

(2) Однак, якщо спочатку поділити зразки на жіночі та чоловічі групи, класифікатор 2 здається кращим вибором, оскільки новий пацієнт (невідомий тестовий зразок) є жінкою.

Чи є у цього роду дилема термінологія чи хтось знає додаткову інформацію або як вирішити подібну проблему? Я навіть не впевнений, чи це законне питання, і заздалегідь вибачте за наївне питання. Дякую


4
На це взагалі не можна відповісти. Можливо, якби ми знали, скільки гендер впливає на рак і скільки у вас є зразків, яку функцію втрати ви використовуєте тощо. Напевно, набагато простіше експериментувати, використовуючи перехресну перевірку.
adrianN

Дякую. Це має сенс. Я думаю, загального правила не повинно бути.
Кассі

1
це звучить як загальне запитання про те, що стосується МЛ про те, "як мені займатися використанням ML для вирішення цієї проблеми". стандартної відповіді немає. важливий / прийнятий / стандарт, щоб спробувати різні підходи та побачити, які стратегії призводять до найбільш точних результатів прогнозування. загальний заголовок - це щось на кшталт "репрезентація проблеми реального світу в абстрактних рамках ML" або грубо "моделювання" і висвітлюється в хороших std refs .... див. також stats.se
vzn

Відповіді:


3

Ви повинні подивитися на вибір функцій та алгоритми, які автоматизують цей процес. Добре, якщо ви новачок у ML та не розумієте всього процесу вибору функцій, просто отримайте належну інтуїцію, і тоді ви можете використовувати бібліотеку для автоматизації процесу.

Ключова ідея створення алгоритму навчання полягає в тому, щоб він міг знайти шаблони ... Найбільше, що можна зробити, - це допомогти йому , надаючи безліч (не надлишкових) даних і маючи хороший крок попередньої обробки, який, як правило, включає речі як вибір функції та нормалізація .

Зі зручності, при впровадженні алгоритмів навчання ви не повинні намагатися змінювати свій набір даних, просто "дивлячись на нього", якщо ви не маєте конкретних показників, які засвідчують, що його потребують модифікацій, багато разів це було так, що навчання алгоритм ставив велику упередженість у відношенні особливостей, які, здавалося б, навіть не віддалено «пов'язані» з процесом класифікації. Завжди намагайтеся зробити крок вибору функції, перш ніж намагатися змінити свої дані.


1

Однією із загальних рубрик для цього типу кроків процесу машинного навчання є попередня обробка даних, про яку говорить вікіпедія: "очищення, нормалізація, трансформація, вилучення та вибір функцій тощо".

Ще один аспект машинного навчання - "створення моделі". це включає рішення, наприклад, про те, скільки класів буде виявлено, якими будуть "розмір" або "розміри" структури ML (наприклад, "скільки ядер буде включати SVM" тощо), приблизно аналогічно вибору кількості нейронів в NN модель). на жаль, деякі рецензії, як правило, пропускають цей крок або «замовчують». але зауважте, що це спільне зі статистикою, а деякі статистичні книги матимуть хороший опис.

У підходах до типу ML звичайно існує сильний ітераційний / зворотний зв'язок / еволюційний процес для визначення як ефективної попередньої обробки, так і моделювання. експериментатор пробує різні ідеї попередньої обробки та моделювання та рухається у бік більш успішних. загальне правило: "чим краще прогнози, тим більше правильно [і, мабуть, також реалістично ] попередня обробка та моделювання", але також враховуючи, що перевиконання ретельно виключається.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.