Чи повинен підбір функції проводитись лише на даних про навчання (або всіх даних)? Я пройшов деякі дискусії та документи, такі як Гайон (2003) та Сінгхі та Лю (2006) , але все ще не впевнений у правильній відповіді.
Моя установка експерименту така:
- Набір даних: 50 здорових груп контролю та 50 пацієнтів (близько 200 ознак, які можуть бути відповідні для прогнозування захворювання).
- Завдання - діагностувати захворювання на основі наявних ознак.
Що я і роблю
- Візьміть цілий набір даних і виконайте вибір функції (FS). Я зберігаю лише вибрані функції для подальшої обробки
- Спліт для тестування та навчання, класифікатор поїздів, використовуючи дані поїздів та вибрані функції. Потім застосуйте класифікатор для тестування даних (знову використовуючи лише вибрані функції). Використовується перевірка залишків-один-один.
- отримати точність класифікації
- Усереднення: повторити 1) -3) N разів. (100).
Я погоджуюся, що виконання FS на цілому наборі даних може внести деякі упередження, але моя думка полягає в тому, що він "усереднюється" під час усереднення (крок 4). Це правильно? (Відхилення точності )
1 Guyon, I. (2003) "Вступ до вибору змінних та особливостей", The Journal of Machine Learning Research, Vol. 3, с. 1157-1182
2 Сінгхі, СК та Лю, Х. (2006) "Зміщення вибору підмножини для класифікаційного навчання", Матеріал ICML '06. Матеріали 23-ї міжнародної конференції з машинного навчання, с. 849-856