Кількість особливостей та кількість спостережень


26

Чи існують документи / книги / ідеї про співвідношення між кількістю ознак та кількістю спостережень, які потрібно мати для підготовки "надійного" класифікатора?

Наприклад, припустимо, що у мене є 1000 можливостей та 10 спостережень з двох класів як навчальний набір, та 10 інших спостережень як тестовий набір. Я треную деякі класифікатори X, і це дає мені 90% чутливості та 90% специфічності на тестовому наборі. Скажімо, я задоволений цією точністю, і виходячи з цього, я можу сказати, що це хороший класифікатор. З іншого боку, я наблизив функцію 1000 змінних, використовуючи лише 10 балів, що може здатися не дуже ... надійним?

Відповіді:


20

Тут ви потрапили на прокляття розмірності або проблему p >> n (де р - це предиктори, а n - спостереження). Протягом багатьох років було розроблено багато методик для вирішення цієї проблеми. Ви можете використовувати AIC або BIC для штрафування моделей із більшою кількістю предикторів. Ви можете вибрати випадкові набори змінних і оцінити їх важливість за допомогою перехресної перевірки . Для регуляризації можна використовувати хребет-регресію , ласо або еластичну сітку . Або ви можете вибрати техніку, наприклад, машину підтримки вектора або випадковий ліс, який добре справляється з великою кількістю предикторів.

Чесно кажучи, рішення залежить від конкретного характеру проблеми, яку ви намагаєтеся вирішити.


9

+1-10,000001ЯЯ, жодна кількість навчальних даних не дасть вам корисного класифікатора. Зрештою, кількість зразків, необхідних для певної кількості функцій, залежить від того, як розподіляються дані, загалом, чим більше функцій у вас є, тим більше даних вам потрібно буде адекватно описати розподіл даних (експоненціальна кількість ознак, якщо вам не пощастило - див. прокляття розмірності, згадане Заком).

Якщо ви використовуєте регуляризацію, то в принципі (верхня межа) похибка узагальнення не залежить від кількості особливостей (див. Роботу Вапніка на машині підтримки вектора). Однак це залишає проблему пошуку хорошого значення параметра регуляризації (зручна перехресна перевірка).


9

Ви, мабуть, переживаєте враження від класичного моделювання, яке вразливе до проблем, пов'язаних з парадоксами Рунге , і, таким чином, вимагає певної настройки парсимуції в процесі обробки.
Однак у випадку машинного навчання ідея включення надійності як мети оптимізації моделі є лише стрижнем всієї області (часто виражається як точність на небачених даних). Так що, якщо ви знаєте, що ваша модель працює добре (наприклад, з резюме), мабуть, немає ніякого сенсу турбуватися.

pн


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.