Мій набір даних невеликий (120 зразків), проте кількість функцій велика варіюється від (1000-200 000). Хоча я роблю підбір функцій, щоб вибрати підмножину функцій, це все одно може бути надмірним.
Перше моє запитання - як SVM справляється із переозброєнням, якщо взагалі.
По-друге, коли я детальніше вивчаю питання про перевиконання у випадку класифікації, я дійшов висновку, що навіть набори даних з невеликою кількістю функцій можуть перевищувати. Якщо у нас немає функцій, пов’язаних з етикеткою класу, перевиконання все одно відбувається. Тому мені зараз цікаво, в чому сенс автоматичної класифікації, якщо ми не зможемо знайти потрібні функції для етикетки класу. У разі класифікації документів це означатиме ручне складання тезаурусу слів, що стосуються міток, що дуже забирає багато часу. Я здогадуюсь, що я намагаюся сказати: без ручного підбору правильних особливостей дуже складно побудувати узагальнену модель?
Крім того, якщо експериментальні результати не показують, що результати мають низький / відсутність перевитрати, це стає безглуздим. Чи є спосіб її виміряти?