Виберіть алгоритм двійкової класифікації

17

У мене проблема бінарної класифікації:

Приблизно 1000 зразків у навчальному наборі
10 атрибутів, включаючи двійкові, числові та категоричні

Який алгоритм є найкращим вибором для такого типу проблем?

За замовчуванням я розпочну з SVM (попередній з номінальними значеннями атрибутів, перетвореними на бінарні функції), оскільки він вважається найкращим для відносно чистих і не галасливих даних.

— IharS
джерело

15

Важко сказати, не знаючи трохи більше про ваш набір даних та про те, як відокремлений ваш набір даних ґрунтується на вашому функціональному векторі, але, напевно, я б запропонував використовувати крайній випадковий ліс над стандартними випадковими лісами через ваш порівняно невеликий набір зразків.

Екстремальні випадкові ліси дуже схожі на стандартні випадкові ліси, за винятком єдиного винятку, що замість оптимізації розколів на деревах екстремальний випадковий ліс робить розщеплення навмання. Спочатку це здавалося б негативним, але це загалом означає, що ви маєте значно кращі узагальнення та швидкість, хоча AUC на вашому тренувальному наборі, ймовірно, буде трохи гіршим.

Логістичний регрес - це також досить вагома ставка для подібних завдань, хоча при вашій відносно низькій розмірності та малому розмірі вибірки я б переймався переоцінками. Ви можете перевірити, використовуючи K-Найближчі сусіди, оскільки він часто виконує дуже волю з низькими розмірами, але зазвичай не дуже добре поводиться з категоричними змінними.

Якби мені довелося вибрати один, не знаючи більше про проблему, я, безумовно, ставлю свої ставки на екстремальний випадковий ліс, оскільки це дуже ймовірно, що ви дасте хороші узагальнення на цьому наборі даних, а також він обробляє сукупність числових і категоричних даних краще ніж більшість інших методів.

— індіко
джерело

добре, дякую! Хоча ще не впевнений, чи можу я використовувати пакет R "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) для створення ERF. Напевно, ні.

— IharS

12

Для низьких параметрів досить обмежений розмір вибірки та логічна регресія двійкового класифікатора повинна бути достатньо потужною. Можна використовувати більш просунутий алгоритм, але це, мабуть, надмірно.

— neone4373
джерело

5

Коли категоріальні змінні знаходяться в суміші, я добираюся до лісів випадкових рішень, оскільки він обробляє категоріальні змінні безпосередньо без перетворення кодування 1-з-n. Це втрачає менше інформації.

— Шон Оуен
джерело

5

Лінійний SVM повинен бути хорошою відправною точкою. Подивіться цей посібник, щоб вибрати правильний оцінювач.

— Станполь
джерело

2

Не рекомендував би спочатку використовувати складні методи. Використовуйте більш швидкі прості підходи спочатку (kNN, NBC тощо), потім просувайтесь через лінійну регресію, логістичну регресію, LDA, CART (RF), KREG, а потім як мінімум квадрати SVM, сходження градієнта SVM, ANN, а потім метагевристику (жадібні евристичне сходження на пагорб із ГА, розвідувальна розвідка, оптимізація колонії мурашок тощо)