В принципі:
Зробіть свої прогнози, використовуючи одну модель, підготовлену для всього набору даних (щоб було лише один набір функцій). Перехресне підтвердження використовується лише для оцінки прогнозованих показників єдиної моделі, що навчається для всього набору даних. ВІДАЛЬНІ при використанні перехресної перевірки в кожному складі ви повторюєте всю процедуру, яка використовується для підгонки до первинної моделі, оскільки в іншому випадку ви можете отримати істотний оптимістичний ухил у виконанні.
Щоб зрозуміти, чому це трапляється, розглянемо проблему бінарної класифікації з 1000 двійкових ознак, але лише 100 випадків, коли випадки та ознаки є чисто випадковими, тому статистичної залежності між ознаками та випадками взагалі немає. Якщо ми тренуємо первинну модель на повному наборі даних, ми завжди можемо досягти нульової помилки на навчальному наборі, оскільки функцій більше, ніж випадків. Ми навіть можемо знайти підмножину "інформативних" функцій (які випадково співвідносяться). Якщо потім ми виконаємо перехресну перевірку, використовуючи лише ті функції, ми отримаємо оцінку ефективності, кращу, ніж випадкові здогадки. Причина полягає в тому, що в кожному складі процедури перехресної перевірки є деяка інформація про затримані випадки, які використовуються для тестування, оскільки функції були обрані, тому що вони були хорошими для прогнозування, у тому числі протриманих. Звичайно, справжня помилка буде 0,5.
Якщо ми застосуємо належну процедуру та здійснимо підбір функції в кожному складі, більше немає інформації про затримані випадки у виборі функцій, які використовуються в цій складці. Якщо ви використовуєте належну процедуру, у цьому випадку ви отримаєте коефіцієнт помилок приблизно 0,5 (хоча він різниться для різних реалізацій набору даних).
Хороші документи для читання:
Крістоф Амброаз, Джеффрі Дж. Маклахлан, "Зміщення селекції при вилученні генів на основі даних про експресію генів мікромасив", PNAS http://www.pnas.org/content/99/10/6562.abrief
що дуже актуально для ОП та
Гевін К. Каулі, Ніколас Л. Талбот, "Про надмірну підбірку моделей та наступні ухили відбору в оцінці продуктивності", JMLR 11 (липень): 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
що демонструє, що те саме може легко відбуватися у виборі моделі (наприклад, налаштування гіперпараметрів SVM, які також потрібно повторювати при кожній ітерації процедури резюме).
На практиці:
Я рекомендую використовувати Baging та використовувати помилку, що не входить у сумку, для оцінки продуктивності. Ви отримаєте модель комітету з використанням багатьох функцій, але це насправді хороша річ. Якщо ви використовуєте лише одну модель, цілком ймовірно, що ви перевиконаєте критерій вибору функції та в кінцевому підсумку буде модель, яка дає бідніші прогнози, ніж модель, яка використовує більшу кількість функцій.
Книга Алана Міллера про підбір підмножини в регресії (монографії Чапмана і Холла про статистику та застосовану ймовірність, том 95) дає хорошу пораду (стор. 221), що якщо прогнозована ефективність є найважливішою справою, то не робіть жодного вибору особливостей , просто замість цього використовуйте регресію хребта. І це в книзі про підбірку підмножини !!! ; o)