Чому вибір завдань важливий для класифікаційних завдань?


11

Я дізнаюся про вибір функції. Я бачу, чому це було б важливо і корисно для побудови моделей. Але зупинімося на контрольованих навчальних (класифікаційних) завданнях. Чому вибір завдань важливий для класифікаційних завдань?

Я бачу багато літератури, написаної про вибір функції та її використання для контрольованого навчання, але це спантеличує мене. Вибір функцій - це визначення того, які функції викинути. Інтуїтивно, викидання деяких особливостей здається самозакоханим: це викидання інформації. Здається, що передача інформації не повинна допомогти.

І навіть якщо видалення деяких функцій допомагає, якщо ми викидаємо деякі функції, а потім подаємо решту в алгоритм, що контролюється, чому нам це потрібно робити самостійно, а не дозволяти керованому алгоритму навчання керувати ним? Якщо якась функція не є корисною, чи не повинен якийсь гідний алгоритм навчання під контролем неявно виявити це та вивчити модель, яка не використовує цю функцію?

Настільки інтуїтивно я б очікував, що вибір функції буде безглуздою вправою, яка ніколи не допомагає і може іноді нашкодити. Але той факт, що це так широко використовується і написано, змушує мене підозрювати, що моя інтуїція непрацездатна. Чи може хто-небудь надати інтуїцію, чому вибір функцій корисний і важливий під час навчання під контролем? Чому це покращує ефективність машинного навчання? Це залежить від того, який класифікатор я використовую?

Відповіді:


10

Ваша інтуїція цілком правильна. У більшості ситуацій вибір функції являє собою прагнення до простого пояснення, яке є результатом трьох непорозумінь:

  1. Аналітик не усвідомлює, що набір "вибраних" функцій є досить нестабільним, тобто ненадійним, і що процес вибору, виконаний на іншому наборі даних, призведе до зовсім іншого набору функцій. Дані часто не володіють інформаційним вмістом, необхідним для вибору "правильних" функцій. Ця проблема загострюється, якщо є колінейності.
  2. Шляхи, механізми та процеси є складними в неконтрольованих експериментах; людська поведінка та природа складні і не скупі.
  3. Y

Деякі способи вивчення цього:

  1. Зробіть більше порівнянь прогнозної точності між ласо , пружною сіткою та стандартним квадратичним штрафом (регресія хребта)
  2. Вимірювальна важливість завантажувального пристрою вимірює випадковий ліс і перевіряє їх стійкість
  3. χ2ρDху

Все це стосується як класифікації, так і більш загальної та корисної концепції прогнозування.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.