GLM після вибору моделі або регуляризації


12

Я б хотів поставити це питання у двох частинах. Обидва стосуються узагальненої лінійної моделі, але перша стосується вибору моделі, а друга стосується регуляризації.

Передумови: я використовую GLM (лінійні, логістичні, гамма-регресії) моделі як для прогнозування, так і для опису. Коли я маю на увазі " нормальні речі, що робиться з регресією ", я багато в чому маю на увазі опис з (i) довірчими інтервалами навколо коефіцієнтів, (ii) довірчими інтервалами навколо прогнозів та (iii) тестами гіпотез щодо лінійних комбінацій коефіцієнтів, таких як "є є різниця між лікуванням A та лікуванням B? ".

Ви законно втрачаєте здатність робити ці речі, використовуючи звичайну теорію згідно з кожним із наведених нижче? І якщо так, чи справді ці речі корисні лише для моделей, які використовуються для чистого передбачення?

I. Коли GLM був пристосований через якийсь процес вибору моделі (для конкретності скажімо, його поетапна процедура заснована на AIC).

II. Коли GLM був пристосований методом регуляризації (скажімо, використовуючи glmnet в R).

Моє відчуття полягає в тому, що для І. відповідь технічно полягає в тому, що ви повинні використовувати завантажувальний засіб для « нормальних речей, які робиться з регресом », але ніхто насправді цього не дотримується.

Додайте:
Після отримання декількох відповідей та читання в іншому місці, ось мій погляд на це (для будь-кого іншого, а також отримання коригування).

I.
A) RE: Помилка Узагальнення. Щоб узагальнити показники помилок у нових даних, коли не встановлено затримку, перехресна перевірка може працювати, але вам потрібно повторити процес повністю для кожної складки - використовуючи вкладені петлі - таким чином, будь-який вибір функції, налаштування параметрів тощо повинен бути робиться самостійно кожен раз. Ця ідея має стосуватися будь-яких зусиль моделювання (включаючи пеніалізовані методи).

B) RE: Тестування гіпотез та довірчі інтервали GLM.При використанні вибору моделі (вибір функції, налаштування параметрів, вибір змінних) для узагальненої лінійної моделі та наявного набору випуску, допускається тренувати модель на розділі, а потім встановлювати модель на решту даних або повний набір даних і використовувати цю модель / дані для проведення тестів на гіпотези тощо. Якщо відкладений набір не існує, може бути використаний завантажувальний пристрій, доки повний процес повторюється для кожного зразка завантажувальної програми. Це обмежує тести гіпотези, які можна зробити, хоча, можливо, не завжди буде обрана змінна, наприклад.

C) RE: Не передбачає прогнозування майбутніх наборів даних, тоді підходять цілеспрямована модель, керована теорією та кількома тестами гіпотез і навіть розглядає можливість залишити всі змінні в моделі (значні чи ні) (за напрямками Хосмера та Лемешоу). Це невеликий змінний набір класичного типу регресійного моделювання, а потім дозволяє використовувати тест КІ та гіпотези.

Г) РЕ: Пенальна регресія. Жодних порад, можливо, вважайте, що це підходить лише для прогнозування (або як тип вибору особливостей, щоб потім застосувати до іншого набору даних, як зазначено в B), оскільки введене зміщення робить тести КІ та гіпотези нерозумними - навіть із завантажувальним завантаженням.


1
Люди іноді роблять це - несвідомо (тобто неправильно використовують статистику, оскільки вони отримують бажаний результат) і свідомо (вони робили завантажувальний процес, і це не впливало суттєво на результат). Ваша думка справедлива, і професор Гаррелл вказує на це у передмові своєї книги, що завантажувальна програма корисна.
suncoolsu

1
Ось щось на кшталт "так" для вашого пункту (II): arxiv.org/abs/1001.0188
Алекс

Відповіді:


5

Ви можете ознайомитись із документом Девіда Фрідмана " Примітка про екранування рівнянь регресії " (необ'єднаний)

Використовуючи цілком некорельовані дані в симуляції, він показує, що якщо передбачувачів багато стосовно кількості спостережень, то стандартна процедура скринінгу дасть остаточну регресію, яка містить багато (більше ніж випадково) значущих прогнозів і дуже значущий F статистичні. Кінцева модель говорить про те, що вона ефективна при прогнозуванні результату, але цей успіх є хибним. Він також ілюструє ці результати за допомогою асимптотичних обчислень. Запропоновані рішення включають скринінг на вибірці та оцінку моделі на повному наборі даних та використання принаймні на порядок більше спостережень, ніж прогнози.


Примітка. Щоб завантажувальний засіб був ефективним рішенням, вам доведеться завантажувати всю процедуру, починаючи з того, як відбудеться будь-який скринінг, екранувати завантажений зразок, а потім обчислити коефіцієнти. Але тепер у вас є різні набори прогнозів для кожної регресії, і вже не зрозуміло, як обчислити розподіл для будь-якого з них. Однак довірчі інтервали завантаження для прогнозованих значень результату можуть бути ефективними.
Чарлі

@charlie: [Чи правильно я читаю, що ти розмовляєш лише зі мною (вибір моделі) не II. (пенізовано)] Ви хочете сказати, що для інтервалів прогнозування правильно використовувати вибір моделі, а потім завантажувати прогнози з цієї моделі, але для всього іншого вам потрібно завантажувати весь процес?
B_Miner

@charlie Щодо запропонованого рішення скринінгу на вибірці. Чи буде це за лініями розподілу даних (ab) з використанням одного набору (вибір моделі тощо), а потім застосувати цю модель до решти даних - і на ті дані з моделлю, яка підходила, використовуючи традиційну теорію для тестів гіпотез, КІ тощо?
B_Miner

Я думав лише про вибір моделі, але це багато в чому тому, що я не знаю все так багато про санкціоновану регресію. Я б сказав, що вам потрібно завантажувати весь процес, щоб отримати висновок щодо прогнозів з моделі. Вся проблема полягає в тому, що в будь-якому одному зразку ви, ймовірно, знайдете помилкові кореляції, які збільшуються, коли ви включаєте деякі змінні, а інші залишаєте поза ними. Єдиний спосіб обійти це - переглянути декілька зразків --- тобто завантажувальну систему. Звичайно, ніхто насправді цього не робить.
Чарлі

Правильно, ви використовуєте один розділ вашого зразка, щоб придумати свою модель, використовуючи процедури вибору моделі, а потім зробіть свій висновок або на інший розділ, або на повний зразок.
Чарлі

2

Щодо 1) Так, ви втрачаєте це. Див., Наприклад, стратегії моделювання регресії Гаррелла, книгу, опубліковану Уайлі, або документ, який я представив разом з Девідом Касселом під назвою "Зупинка по кроці", доступний, наприклад, www.nesug.org/proceedings/nesug07/sa/sa07.pdf


Я бачив цей документ - дуже цікавий. Два питання. 1) Дозволяє здійснювати логістичну регресію. Це звучить як єдиний спосіб проведення тестів на ІП або гіпотезу - це побудова моделі в стилі хосмера і лемешоу (виключаючи будь-які набори даних з великим р)? Отже, вам залишається "використовувати" модель лише для бальних оцінок? 2) Ваш документ обговорює ласо серед інших альтернатив. Ви думаєте, що це дозволяє пізніше перевірити гіпотези або "просто" дано як кращий варіант вибору моделі?
B_Miner
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.