Я не бачив лекції, тому не можу коментувати сказане.
Мої $ 0,02: Якщо ви хочете отримати хороші оцінки ефективності за допомогою переустановки, вам слід дійсно виконати всі операції під час перекомпонування замість попередніх. Це дійсно стосується вибору функцій [1], а також нетривіальних операцій, таких як PCA. Якщо це додає результатів невизначеності, включіть її до переустановки.
Подумайте про регресію основних компонентів: PCA з наступною лінійною регресією на деяких компонентах. PCA оцінює параметри (з шумом) і кількість компонентів також слід вибирати (різні значення призводять до різних результатів => більше шуму).
Скажімо, ми використовували 10-кратне резюме зі схемою 1:
conduct PCA
pick the number of components
for each fold:
split data
fit linear regression on the 90% used for training
predict the 10% held out
end:
або схема 2:
for each fold:
split data
conduct PCA on the 90% used for training
pick the number of components
fit linear regression
predict the 10% held out
end:
Повинно бути зрозумілим, що другий підхід повинен давати оцінки помилок, які відображають невизначеність, спричинену PCA, вибір кількості компонентів та лінійну регресію. Насправді резюме в першій схемі не має уявлення про те, що їй передувало.
Я винен, що не завжди виконую всі операції без переустановки, але лише тоді, коли мені не дуже важливо оцінювати ефективність роботи (що незвично).
Чи є велика різниця між двома схемами? Це залежить від даних та попередньої обробки. Якщо ви лише центрируєте і масштабуєте, напевно, ні. Якщо у вас є тонна даних, напевно, ні. Із зменшенням розміру навчального набору ризик отримання поганих оцінок збільшується, особливо якщо n близький до p.
Я з упевненістю можу сказати з досвіду, що не включати підбір контрольованих функцій під час переустановки - це дуже погана ідея (без великих навчальних наборів). Я не бачу, чому попередня обробка не була б захищена від цього (певною мірою).
@mchangun: Я вважаю, що кількість компонентів є параметром настройки, і ви, ймовірно, хочете вибрати його, використовуючи узагальнюючі оцінки продуктивності. Ви можете автоматично вибрати K таким, щоб принаймні X% дисперсії було пояснено, і включити цей процес у межах переустановки, щоб ми врахували шум у цьому процесі.
Макс
[1] Ambroise, C., & McLachlan, G. (2002). Зсув селекції у вилученні генів на основі даних про експресію генів мікромасив Праці Національної академії наук, 99 (10), 6562–6566.