Відповіді:
По-перше, давайте бути явним і ставити питання в контексті множинної лінійної регресії, де ми регресуємо змінну відповіді, , на декілька різних змінних x 1 , … , x p (корельована чи ні), з векторним параметром β = ( β 0 , β 1 , … , β p ) і регресійна функція f ( x 1 , … , x p ) = β 0 + β 1 x 1 +
яка могла б бути моделлю середньої змінної відгуку для даного спостереження x 1 , … , x p .
Питання полягає в тому , щоб вибрати підмножина з «S бути відмінний від нуля, і, зокрема, порівняння тестування значущості по порівнянні з перехресної перевірки .
Щоб бути чітко зрозумілим щодо термінології, перевірка значимості - це загальне поняття, яке проводиться по-різному в різних контекстах. Це залежить, наприклад, від вибору тестової статистики. Перехресне підтвердження - це дійсно алгоритм оцінки очікуваної помилки узагальнення , що є важливим загальним поняттям і залежить від вибору функції втрат.
Очікуються помилка узагальнення трохи технічна формально визначити, але на словах це очікується втрата підібраною моделі , коли використовуються для прогнозування на незалежному безліч даних , де математичне сподівання за даними , які використовуються для оцінки, а також незалежних даних набір, що використовується для прогнозування
Просто використання тестів на значущість та покрокова процедура для вибору моделі може привести вас до думки, що у вас дуже сильна модель зі значущими прогнозами, коли ви, власне, цього не робите; Ви можете отримати сильну кореляцію випадково, і ці кореляції, здавалося б, можна покращити, якщо ви видалите інші непотрібні прогнози.
Процедура відбору, звичайно, зберігає лише ті змінні, які мають найсильнішу кореляцію з результатом, і, коли покрокова процедура рухається вперед, ймовірність вчинити помилку типу I стає більшою, ніж ви могли собі уявити. Це пояснюється тим, що стандартні помилки (і, таким чином, p-значення) не коригуються з урахуванням того факту, що змінні не були відібрані для включення в модель випадковим чином і для вибору цього набору було проведено кілька тестів гіпотез.
У Девіда Фрідмана є симпатичний документ, в якому він демонструє ці моменти під назвою " Примітка про рівняння регресійних рівнянь ". Реферат:
Як ви вже згадували, одним із потенційних рішень цієї проблеми є використання варіантів перехресної перевірки. Коли у мене немає хорошої економічної (моя область досліджень) чи статистичної причини вважати свою модель, це мій переважний підхід до вибору відповідної моделі та проведення висновку.
Інші респонденти можуть згадати, що поетапні процедури, що використовують AIC або BIC, асимптотично еквівалентні перехресній валідації. Це працює лише тоді, коли кількість спостережень відносно кількості предикторів стає значною. У контексті наявності багатьох змінних щодо кількості спостережень (Фрідман каже 1 змінна на 10 або менше спостережень), вибір таким чином може проявляти погані властивості, про які йшлося вище.
У епоху потужних комп'ютерів я не бачу причин не використовувати перехресну перевірку як процедуру вибору моделі для покрокового вибору.