У своїй роботі " Вибір лінійної моделі шляхом перехресної валідації" Джун Шао показує, що для задачі вибору змінної при багатоваріантній лінійній регресії метод перехресної валідації "відхід один-один" (LOOCV) є "асимптотично несуперечливим". Простий англійською мовою, як правило, вибирають моделі із занадто великою кількістю змінних. У симуляційному дослідженні Шао показує, що навіть за 40 спостережень, LOOCV може бути меншим, ніж інші методи перехресної перевірки.
Ця стаття є дещо суперечливою і дещо ігнорованою (через 10 років після її публікації мої колеги з хіміометрії ніколи про неї не чули і з радістю використовували LOOCV для варіативного вибору ...). Існує також переконання (я винен у цьому), що його результати дещо виходять за рамки початкової обмеженої сфери.
Тоді питання: наскільки ці результати поширюються? Чи застосовні вони до наступних проблем?
- Варіабельний вибір для логістичної регресії / GLM?
- Варіабельний вибір для класифікації Fisher LDA?
- Змінний вибір за допомогою SVM з кінцевим (або нескінченним) простором ядра?
- Порівняння моделей у класифікації, скажімо, SVM з використанням різних ядер?
- Порівняння моделей з лінійною регресією, скажімо, порівняння MLR з Ridge Regression?
- тощо.