Як виявити, коли регресійна модель перестала відповідати?


14

Коли ви той, хто виконує роботу, усвідомлюючи, що ви робите, ви розвиваєте почуття, коли ви переоцінили модель. З одного боку, ви можете відстежувати тенденцію або погіршення в регульованій площі R моделі. Можна також відслідковувати подібне погіршення p-значень коефіцієнтів регресії основних змінних.

Але, коли ви просто читаєте, що хтось інший вивчає, і не маєте уявлення про власний процес розробки внутрішньої моделі, як можна чітко визначити, чи є модель надмірно придатною чи ні.


Просто киньте пару ідей на цю тему, якщо дослідження розкриває стандартну статистику регресії, ви можете зосередитись на t статистиці та p значеннях коефіцієнтів. Якщо RSquare моделі високий; але одна або більше змінних мають стат <2,0; це може бути червоний прапор. Крім того, якщо знак коефіцієнтів на деяких змінних не відповідає логіці, можливо, це ще один червоний прапор. Якщо дослідження не розкриває період затримки для моделі, це може бути ще одним червоним прапором. Сподіваємось, у вас будуть інші і кращі ідеї.
Sympa

Один із способів - побачити, як працює модель на інших (але подібних) даних.
Шейн

Відповіді:


15

Перехресне підтвердження та регуляризація є досить поширеними методами для запобігання надмірної придатності. Для швидкого перегляду я рекомендую слайди підручника Ендрю Мура щодо використання перехресної перевірки ( дзеркала ) - зверніть особливу увагу на застереження. Для більш детальної інформації обов'язково прочитайте глави 3 та 7 EOSL , які добре висвітлюють тему та пов’язані з цим питання.


2
О, дякую, що навчальний посібник Ендрю Мура щодо перехресної перевірки - це світовий клас.
Sympa

7

Коли я сам встановлюю модель, я, як правило, використовую інформаційні критерії під час процесу підгонки, такі як AIC або BIC , або, як варіант, тести коефіцієнта ймовірності ймовірності для моделей, що підходять на основі максимальної ймовірності або F-тесту для моделей, що підходять на основі найменших квадратів.

Всі вони концептуально схожі тим, що штрафують додаткові параметри. Вони встановлюють поріг "додаткової пояснювальної потужності" для кожного нового параметра, доданого до моделі. Всі вони є формою регуляризації .

Для інших моделей я переглядаю розділ методів, щоб побачити, чи використовуються такі прийоми, а також використовую правила, наприклад, кількість спостережень за параметром - якщо за параметром є приблизно 5 (або менше) спостережень, я починаю цікавитись.

Завжди пам’ятайте, що змінна потреба не повинна бути «значною» в моделі, щоб бути важливою. Я можу бути конфедером і повинен бути включений на цій основі, якщо ваша мета - оцінити ефект інших змінних.


Дякуємо за посилання на тести AIC та BIC. Чи додають вони великої вартості порівняно з скоректованою площею R, що робить подібне, штрафуючи моделі для додавання змінних?
Sympa

1
@Gaeten, скорегований R-квадрат збільшиться, коли F-тест моделі до та після нього є значущим, тому вони є еквівалентними, за винятком звичайного обчислення скоригованого R-квадрата, не повертає p-значення.
Thylacoleo

1
@Gaeten - AIC та BIC є більш загальними, ніж F-тести та скориговані R-квадрати, які, як правило, обмежені моделями, розміщеними найменшими квадратами. AIC & BIC можна використовувати для будь-якої моделі, де вірогідність можна обчислити і ступінь свободи можна знати (або оцінити).
Thylacoleo

Тестування набору змінних не є формою регуляризації (усадки). І тестування дає спокусу видалити змінні, що не має нічого спільного зі зменшенням перевитрати.
Френк Харрелл

@FrankHarrell Чи можете ви детальніше розглянути цей ваш старий коментар? Мені здається, що видалення змінної зменшило б перевищення, якщо всі інші речі були рівними, оскільки ступінь свободи, доступної для надмірного набору, зменшується. Я впевнений, що тут я пропускаю якийсь нюанс.
Лепідоптер

5

Я б припустив, що це проблема із тим, як повідомляються результати. Не "бити в байєсівський барабан", але наближатись до невизначеності моделі з точки зору байесів, як проблема висновку, тут дуже допоможе. І це теж не повинно бути великою зміною. Якби звіт просто містив ймовірність того, що модель справжня, це було б дуже корисно. Цю кількість можна легко оцінити за допомогою BIC. Викличте BIC для m-ї моделі . Тоді ймовірність того, що mth модель є "справжньою" моделлю, враховуючи, що M- моделі підходили (і що одна з моделей істинна) задається:BICmM

P(model m is true|one of the M models is true)wmexp(12BICm)j=1Mwjexp(12BICj)
=11+jmMwjwmexp(12(BICjBICm))

Where wj is proportional to the prior probability for the jth model. Note that this includes a "penalty" for trying to many models - and the penalty depends on how well the other models fit the data. Usually you will set wj=1, however, you may have some "theoretical" models within your class that you would expect to be better prior to seeing any data.

Now if somebody else doesn't report all the BIC's from all the models, then I would attempt to infer the above quantity from what you have been given. Suppose you are given the BIC from the model - note that BIC is calculable from the mean square error of the regression model, so you can always get BIC for the reported model. Now if we take the basic premise that the final model was chosen from the smallest BIC then we have BICfinal<BICj. Now, suppose you were told that "forward" or "forward stepwise" model selection was used, starting from the intercept using p potential variables. If the final model is of dimension d, then the procedure must have tried at least

M1+p+(p1)++(pd+1)=1+p(p1)(pd)(pd1)2

different models (exact for forward selection), If the backwards selection was used, then we know at least

M1+p+(p1)++(d+1)=1+p(p1)d(d1)2

Models were tried (the +1 comes from the null model or the full model). Now we could try an be more specific, but these are "minimal" parameters which a standard model selection must satisfy. We could specify a probability model for the number of models tried M and the sizes of the BICj - but simply plugging in some values may be useful here anyway. For example suppose that all the BICs were λ bigger than the one of the model chosen so that BICm=BICjλ, then the probability becomes:

11+(M1)exp(λ2)

So what this means is that unless λ is large or M is small, the probability will be small also. From an "over-fitting" perspective, this would occur when the BIC for the bigger model is not much bigger than the BIC for the smaller model - a non-neglible term appears in the denominator. Plugging in the backward selection formula for M we get:

11+p(p1)d(d1)2exp(λ2)

Now suppose we invert the problem. say p=50 and the backward selection gave d=20 variables, what would λ have to be to make the probability of the model greater than some value P0? we have

λ>2log(2(1P0)P0[p(p1)d(d1)])

Setting P0=0.9 we get λ>18.28 - so BIC of the winning model has to win by a lot for the model to be certain.


+1, this is really clever. Is this published somewhere? Is there an 'official' reference for this?
gung - Reinstate Monica

@gung - why thank you. Unfortunately, this was a "back of the envelope" answer. I'm sure there's problems with it, if you were to investigate in more detail.
probabilityislogic
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.