Чи мають нормалізуючі дані (щоб мати нульове середнє значення та стандартне відхилення одиниці) перед виконанням повторної перехресної перевірки k-кратного перешкоди, як-небудь негативні наслідки, такі як перевиконання?
Примітка. Це стосується ситуації, коли #cases> total #features
Я перетворюю деякі свої дані за допомогою перетворення журналу, а потім нормалізую всі дані, як зазначено вище. Тоді я виконую вибір функції. Далі я застосовую вибрані функції та нормалізовані дані до повторної 10-кратної перехресної перевірки, щоб спробувати оцінити ефективність узагальненого класифікатора, і я занепокоєний тим, що використання всіх даних для нормалізації може виявитися недоцільним. Чи слід нормалізувати дані тестів для кожної складки, використовуючи нормалізуючі дані, отримані з даних тренувань для цієї складки?
Будь-які думки вдячно отримані! Вибачте, якщо це питання здається очевидним.
Редагувати: Перевіривши це (відповідно до пропозицій нижче), я виявив, що нормалізація до резюме не відрізняється значною ефективністю в порівнянні з нормалізацією в CV.