Я б хотів поставити це питання у двох частинах. Обидва стосуються узагальненої лінійної моделі, але перша стосується вибору моделі, а друга стосується регуляризації.
Передумови: я використовую GLM (лінійні, логістичні, гамма-регресії) моделі як для прогнозування, так і для опису. Коли я маю на увазі " нормальні речі, що робиться з регресією ", я багато в чому маю на увазі опис з (i) довірчими інтервалами навколо коефіцієнтів, (ii) довірчими інтервалами навколо прогнозів та (iii) тестами гіпотез щодо лінійних комбінацій коефіцієнтів, таких як "є є різниця між лікуванням A та лікуванням B? ".
Ви законно втрачаєте здатність робити ці речі, використовуючи звичайну теорію згідно з кожним із наведених нижче? І якщо так, чи справді ці речі корисні лише для моделей, які використовуються для чистого передбачення?
I. Коли GLM був пристосований через якийсь процес вибору моделі (для конкретності скажімо, його поетапна процедура заснована на AIC).
II. Коли GLM був пристосований методом регуляризації (скажімо, використовуючи glmnet в R).
Моє відчуття полягає в тому, що для І. відповідь технічно полягає в тому, що ви повинні використовувати завантажувальний засіб для « нормальних речей, які робиться з регресом », але ніхто насправді цього не дотримується.
Додайте:
Після отримання декількох відповідей та читання в іншому місці, ось мій погляд на це (для будь-кого іншого, а також отримання коригування).
I.
A) RE: Помилка Узагальнення. Щоб узагальнити показники помилок у нових даних, коли не встановлено затримку, перехресна перевірка може працювати, але вам потрібно повторити процес повністю для кожної складки - використовуючи вкладені петлі - таким чином, будь-який вибір функції, налаштування параметрів тощо повинен бути робиться самостійно кожен раз. Ця ідея має стосуватися будь-яких зусиль моделювання (включаючи пеніалізовані методи).
B) RE: Тестування гіпотез та довірчі інтервали GLM.При використанні вибору моделі (вибір функції, налаштування параметрів, вибір змінних) для узагальненої лінійної моделі та наявного набору випуску, допускається тренувати модель на розділі, а потім встановлювати модель на решту даних або повний набір даних і використовувати цю модель / дані для проведення тестів на гіпотези тощо. Якщо відкладений набір не існує, може бути використаний завантажувальний пристрій, доки повний процес повторюється для кожного зразка завантажувальної програми. Це обмежує тести гіпотези, які можна зробити, хоча, можливо, не завжди буде обрана змінна, наприклад.
C) RE: Не передбачає прогнозування майбутніх наборів даних, тоді підходять цілеспрямована модель, керована теорією та кількома тестами гіпотез і навіть розглядає можливість залишити всі змінні в моделі (значні чи ні) (за напрямками Хосмера та Лемешоу). Це невеликий змінний набір класичного типу регресійного моделювання, а потім дозволяє використовувати тест КІ та гіпотези.
Г) РЕ: Пенальна регресія. Жодних порад, можливо, вважайте, що це підходить лише для прогнозування (або як тип вибору особливостей, щоб потім застосувати до іншого набору даних, як зазначено в B), оскільки введене зміщення робить тести КІ та гіпотези нерозумними - навіть із завантажувальним завантаженням.