Чому усунення відсталого виправдано при багаторазовій регресії?


9

Чи це не призводить до надмірної підгонки? Чи були б мої результати більш надійними, якби я додав процедуру підключення ножа або завантажувальну машину до складу аналізу?


8
Хто каже, що це виправдано? Звичайно, це повинно призвести до перевитрати.
gung - Відновіть Моніку

2
Це насправді пропонується у багатьох книгах (все ще?), Наприклад, amazon.com/Statistics-Explained-Introductory-Guide-Scientists/… . Я сам думав над тим самим питанням. Я думаю, що у мене є принаймні 3-4 книги зі статистикою, які взагалі не обговорюють проблему придатності, коли впроваджуються множинні регресії.
ммх

5
Чесно кажучи, якщо у вступній статистичній книзі не буде обговорюватися переоцінка та тестування, я прочитав би іншу книгу.
Меттью Друрі

3
Елімінація назад (і вибір вперед) все ще має тенденцію до надмірного розміру, якщо в якості критерію вибору функції використовується перехресна перевірка відпустки (наприклад, PRESS).
Дікран Марсупіал

5
@mmh не зовсім вступний, але я настійно рекомендую прочитати розділ 4 Стратегії моделювання регресії Френка Гаррелла (ну, це не просто глава 4, яку варто прочитати, але ця частина особливо актуальна для цієї дискусії).
Glen_b -Встановіть Моніку

Відповіді:


2

Я думаю, що скласти модель та протестувати її - це різні речі. Відставання назад є частиною побудови моделі. Для його тестування більше використовуються джек-ніж і завантажувач.

Ви, звичайно, можете мати більш достовірні оцінки за допомогою завантажувального пристрою та джек-ножа, ніж просте зворотнє вилучення. Але якщо ви дійсно хочете перевірити придатність, то найкращим випробуванням є розділений зразок, тренування на одних, тестування на інші. Для цієї мети занадто нестабільний / недостовірний: http://www.russpoldrack.org/2012/12/the-perils-of-leave-one-out.html

Я думаю, щонайменше 10% суб'єктів потребують отримання більш стабільних оцінок надійності моделі. А якщо у вас 20 предметів, 2 предметів ще дуже мало. Але тоді виникає питання, чи є у вас достатньо великий зразок, щоб побудувати модель, яку можна застосувати до решти населення.

Сподіваюся, він відповів на ваше запитання хоча б частково.


Отже, можна просто використовувати перехресну перевірку з (або )? k<nk<<n
ммх

Вступ до статистичного навчання обговорює різні підходи до перекомпонування (набори валідації, перехресне підтвердження з різною кількістю груп, завантаження) у розділі 5 та вибір моделі в главі 6.
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.