Нещодавно я багато читав на цьому веб-сайті (@Aniko, @Dikran Marsupial, @Erik) та інших місцях про проблему пристосування, що виникає з перехресною валідацією - (Smialowski et al. 2010 Біоінформатика, Хасті, Елементи статистичного навчання). Припущення полягає в тому, що будь-який підбір контрольованих функцій (використовуючи кореляцію з мітками класів), виконаний поза оцінкою продуктивності моделі з використанням перехресної перевірки (або іншого методу оцінки моделі, наприклад, завантажувального завантаження), може призвести до перевищення.
Мені це здається неінтуїтивним - звичайно, якщо ви вибираєте набір функцій, а потім оцінюєте свою модель, використовуючи лише вибрані функції, використовуючи перехресну перевірку, тоді ви отримуєте неупереджену оцінку узагальненої роботи моделі за цими ознаками (це передбачає, що досліджуваний зразок є репрезентативним популяції)?
З цією процедурою, звичайно, не можна вимагати оптимального набору функцій, але чи можна повідомити про ефективність вибраного набору функцій на невидимих даних як дійсні?
Я погоджуюсь, що вибір функцій на основі всього набору даних може спричинити витік даних між тестовими та поїздними наборами. Але якщо набір функцій статичний після первинного вибору, і інша настройка не проводиться, напевно, правдиво повідомляти про перевірені показники ефективності?
У моєму випадку я маю 56 можливостей і 259 випадків і так #cases> #features. Особливості отримані з даних датчиків.
Вибачте, якщо моє питання здається похідним, але це здається важливим моментом для уточнення.
Редагувати: Впроваджуючи вибір функції в рамках перехресної перевірки на наборі даних, детально описаному вище (завдяки відповідям нижче), я можу підтвердити, що вибір функцій до перехресної перевірки в цьому наборі даних вніс значне значенняупередженість. Цей ухил / надмірний примірник був найбільшим, коли це було зроблено для 3-класового складу, порівняно з 2-класовим. Думаю, те, що я використовував ступінчату регресію для вибору особливостей, збільшив цей наряд; для порівняння, на іншому, але пов'язаному наборі даних я порівняв послідовну процедуру вибору функції вперед, виконану до перехресної перевірки, з результатами, які раніше я отримав, з вибором функції в CV. Результати між обома методами різко не відрізнялися. Це може означати, що ступінчаста регресія більш схильна до надмірного, ніж послідовна FS, або може бути химерністю цього набору даних.