Я прошу відрізнятись у цьому питанні думкою @ AmiTavory, а також елементами статистичного навчання.
Виходячи із застосованого поля з дуже низькими розмірами вибірки, я маю досвід, що також непідконтрольні етапи попередньої обробки можуть ввести сильний зміщення.
У моєму полі це найчастіше PCA для зменшення розмірності, перш ніж класифікатор буде проведений. Хоча я не можу показати тут дані, я бачив, що PCA + (перехресне затверджене LDA) порівняно з перехресною (PCA + LDA) заниженням рівня помилок приблизно на порядок . (Зазвичай це показник того, що PCA не є стабільним.)
Що стосується аргументації "Несправедливої переваги" Елементів, якщо вивчити дисперсію випробувань + тестові випадки, ми закінчимо функціями, які добре працюють як з навчальними, так і з тестовими. Таким чином, ми створюємо тут самореалізаційне пророцтво, що є причиною надмірних упереджень. Цей ухил низький, якщо у вас досить зручні розміри зразків.
Тож я рекомендую підхід, який трохи більш консервативний, ніж Елементи:
- розрахунки попередньої обробки, які враховують більше одного випадку, повинні бути включені у перевірку: тобто вони обчислюються лише на відповідному навчальному наборі (і потім застосовуються до даних тесту)
- кроки попередньої обробки, які розглядають кожен випадок самостійно (я спектроскопіст: прикладами можуть бути корекція базової лінії та нормалізація інтенсивності, що є нормальною нормалізацією), можуть бути виведені з перехресної перевірки до тих пір, поки вони будуть до першого кроку, обчислює для кількох випадків.
Незважаючи на це, також перехресне підтвердження є лише скороченням для правильного дослідження валідації. Таким чином, ви можете сперечатися з практичністю:
Ви можете перевірити, чи дає відповідна попередня обробка стабільні результати (це можна зробити, наприклад, шляхом перехресної перевірки). Якщо ви вважаєте, що це абсолютно стабільно вже з меншими розмірами вибірки, IMHO, ви можете стверджувати, що не буде багато вперед, якщо витягнути його з перехресної перевірки.
Однак, щоб навести попереднього керівника: час обчислення не є науковим аргументом.
Я часто запускаю "попередній перегляд" декількох складок і декількох ітерацій для перехресної перевірки, щоб переконатися, що весь код (включаючи підсумок / графіки результатів), а потім залишаю його протягом ночі або в вихідні або близько того на сервері для більш дрібнозерниста перехресна перевірка.