Коли випадати термін з регресійної моделі?


20

Чи може хтось порадити, якщо таке має сенс:

Я маю справу зі звичайною лінійною моделлю з 4-ма предикторами. Я замислююся над тим, чи відмовитись від найменш значущого терміна. Це -значення трохи більше 0,05. Я стверджував на користь відмови від цього шляхом: Помноження оцінки цього терміна на (наприклад) міжквартирний діапазон вибіркових даних для цієї змінної надає певного значення клінічному ефекту, який зберігає цей термін на загальну модель . Оскільки це число дуже низьке, приблизно дорівнює типовому внутрішньоденному діапазону значень, які змінна може приймати при вимірюванні її в клінічних умовах, я вважаю, що вона не є клінічно значущою і тому може бути відхилена, щоб дати більш парсимонічну модель, навіть хоч відкидання його трохи зменшує відрегульований R 2 .pR2


1
чому ви шукаєте більш парсимонієву модель?
Михайло Єпископ

3
Хіба парність сама по собі не є доброю справою? Як я бачу, модель зі змінними, що додають мало або взагалі не пояснювальну силу в клінічному сенсі, гірша, ніж менша модель без цих змінних, навіть якщо ці змінні в статистичному сенсі є значущими
P Sellaz,

Я вирішив написати відповідь: stats.stackexchange.com/questions/17624 / ... . Але коротше кажучи: Ні, я не вважаю, що парсистика сама по собі є доброю справою. Іноді це корисно з конкретних причин.
Михайло Єпископ

1
Я згоден з Майклом. Найкраще включати змінні без явної пояснювальної здатності, якщо їм було надано шанс бути "значущими"; ви вже витратили ці ступені свободи.
Френк Харрелл

Майте на увазі, що прогноктори, які не є істотними регресорами, все ще можуть внести ненульові суми до поясненої дисперсії у випадку корельованих регресорів - впливаючи на інших значущих регресорів. Тим більше, що мають лише чотири провідники, якщо регресори співвідносяться, я б заперечував за збереження несуттєвого в моделі.
Торвон

Відповіді:


18

Я ніколи не розумів бажання парші. Шукання парсизму руйнує всі аспекти статистичного висновку (зміщення коефіцієнтів регресії, стандартні помилки, довірчі інтервали, P-значення). Вагомою причиною збереження змінних є те, що це зберігає точність довірчих інтервалів та інших величин. Подумайте про це так: були розроблені лише два об'єктивні оцінки залишкової дисперсії у звичайній множинній регресії: (1) оцінка за попередньо заданою (великою) моделлю та (2) оцінка за зменшеною моделлю, що замінює узагальнені ступені свободи (GDF) для очевидних (зменшених) ступенів регресії свободи. GDF буде набагато ближче до кількості параметрів-кандидатів, ніж до числа кінцевих "значущих" параметрів.

Ось ще один спосіб подумати про це. Припустимо, ви робили ANOVA для порівняння 5 процедур, отримуючи 4 df F-тест. Потім ви чомусь переглядаєте парні відмінності між методами лікування за допомогою t-тестів і вирішили комбінувати або видаляти деякі методи лікування (це те саме, що робили поетапний відбір за допомогою P, AIC, BIC, Cp на 4 змінних манекенів). Отриманий F-тест з 1, 2 або 3 df матиме завищену помилку I типу. Оригінальний F-тест з 4 df містив ідеальне регулювання кратності.


3
+1 Парсиція - це те, що часто має сенс лише у дуже конкретних контекстах. Немає причин грати в гру з ухилом і точністю, якщо у вас достатньо точності, щоб зробити і те, і інше.
Фоміт

2
+1 за чудову відповідь. Але що робити, якщо у вас є мультиколінеарність, а видалення змінної зменшує її? (Це не в початковому запитанні, але часто є в інших даних). Чи не часто отримана модель перевершує всілякі способи (зменшення дисперсії оцінок, ознаки коефіцієнтів швидше відображають основу теорії тощо)? Якщо ви все ще використовуєте правильну (оригінальну модель) ступінь свободи.
Пітер Елліс

4
Ще краще включити обидві змінні. Єдина ціна, яку ви платите, - це збільшена стандартна помилка в оцінці ефекту змінної, скоригованої на інший. Спільні випробування двох колінеарних змінних дуже потужні, оскільки тоді вони поєднують сили, а не конкурують одна з одною. Крім того, якщо ви хочете видалити змінну, дані не можуть сказати вам, яку видалити.
Френк Харрелл

17

Ці відповіді щодо вибору змінних припускають, що вартість спостереження змінних дорівнює 0.

І це неправда.

Хоча питання вибору змінних для даної моделі може включати або не може включати вибір, наслідки для майбутньої поведінки НЕ передбачають вибір.

Розглянемо проблему передбачення того, хто з коледжів буде найкращим в НФЛ. Ви розвідник. Ви повинні врахувати, які якості нинішніх спортсменів у НФЛ найбільш прогнозують їхній успіх. Ви вимірюєте 500 кількостей і починаєте завдання вибору кількостей, які знадобляться в майбутньому.

Що тобі слід робити? Ви повинні зберегти всі 500? Чи слід усунути якийсь (астрологічний знак, день тижня, народжений)?

Це важливе питання і не є академічним. Спостереження за даними є витратами, і структура економічної ефективності дозволяє припустити, що деякі змінні НЕ БУДЬТЕ спостерігатись у майбутньому, оскільки їх значення низьке.


4
+1: важливий і цікавий момент. Також виявляється, що питання є неповним, оскільки не вказує мету моделі. (Витрати були б менш актуальними для наукової моделі, яка прагне побудувати пояснювальну теорію, але вийшла б на перший план у прогностичній моделі, призначеній для багаторазового використання.)
whuber

6

Існують щонайменше дві інші можливі причини збереження змінної: 1) Це впливає на параметри для ІНШИХ змінних. 2) Той факт, що він малий, сам по собі клінічно цікавий

Щоб побачити близько 1, ви можете переглянути прогнозовані значення для кожної людини з моделі зі змінною та без неї. Я пропоную зробити розсип цих двох наборів значень. Якщо великих відмінностей немає, то це аргумент проти цієї причини

Для 2 подумайте, чому саме ви вказали цю змінну у списку можливих змінних. Чи заснована на теорії? Чи виявили інші дослідження великого ефекту?


Говорити дуже мало, тому видалення цієї змінної має дуже мало значення для інших. Це цікавий момент про те, що це клінічно цікаво, якби воно було невеликим. Дані беруть участь у дослідницькому опитуванні, де, принаймні, на цьому етапі немає підстав очікувати, що будь-яка інша змінна буде більш значною, ніж будь-яка інша. Однак у цій змінній спостерігається коливання протягом доби, тому, якщо ефект був подібний за розмірами до цього коливання, це для мене не виглядає дуже важливим.
П Селлаз

Гаразд, тоді це здається хорошим кандидатом на видалення.
Пітер Флом - Відновіть Моніку

@P Sellaz - якщо "дані надходять з дослідницького опитування", це означає, що учасники обрали себе самі? Я вважаю, що в коментарях @Frank Harrell слід враховувати щось, але стурбованість суворою точністю p-значень, довірчих інтервалів тощо стає суперечливою, якщо вибірку було обрано самостійно.
rolando2

Я думаю, що це стає суперечливим лише тоді, коли ви їх не використовуєте.
Френк Харрелл

@FrankHarrel - уточніть, будь ласка: "їх" =?
rolando2

6

Найпоширенішою порадою в ці дні є отримати АПК двох моделей і взяти одну з нижньою АПК. Отже, якщо ваша повна модель має AIC -20, а модель без найслабшого прогноктора має AIC> -20, то ви зберігаєте повну модель. Деякі можуть стверджувати, що якщо різницю <3, ви збережете простішу. Я вважаю за краще поради, які можна використовувати BIC для розриву "зв'язків", коли АПК знаходяться в межах 3 один від одного.

Якщо ви використовуєте R , то команду , щоб отримати АІК ... AIC.

У мене є підручник з моделювання тут з початку 90-х років, який передбачає, що ви кинете всі ваші прогнози, які не є істотними. Однак це насправді означає, що ви не залежите від складності, яку передбачувач додає або віднімає з моделі. Це також лише для ANOVA, де значення стосується пояснення змінності, а не величини нахилу в світлі того, що було пояснено іншими речами. Ці сучасні поради щодо використання AIC враховують ці фактори. Існують усі види причин, коли несуттєвий предиктор повинен бути включений, навіть якщо він не є суттєвим. Наприклад, можуть бути проблеми кореляції з іншими провісниками, тому що це може бути порівняно простий прогноз. Якщо ви хочете найпростіших порад, перейдіть з AIC і використовуйте BIC для розриву зв'язків і використовуйте різницю 3 як вікно рівності.


Менше краще в представленні R, так?
Аарон - Відновити Моніку

Спасибі за Вашу відповідь. Я виявив, що різниця в AIC між двома моделями становить лише 2.
P Sellaz

Менша модель має трохи більше AIC та BIC AIC: велика-мала AIC = -2 BIC: велика-мала BIC- 7,8
P Sellaz

Аарон .. ой ... нижній, фіксований ...
Іван

1
Просто для того, щоб щось зрозуміти, цей додатковий термін - це ще одна коваріація, і колінеарності дуже мало.
П Селлаз

4

Для чого ви використовуєте цю модель? Чи важлива мета парситу?

Більш парсімоніальні моделі віддають перевагу в деяких ситуаціях, але я б не сказав, що парсистика сама по собі є доброю справою. Парсимоніальні моделі можна зрозуміти та спілкуватись простіше, а паршість може допомогти уберегтися від перенапруги, але часто такі проблеми не викликають серйозних проблем або їх можна вирішити іншим способом.

Підхід з протилежного напрямку, включаючи додатковий термін в рівняння регресії, має певні переваги навіть у ситуаціях, коли сам додатковий термін не представляє інтересу і не вдосконалює модель, що сильно підходить ... ви можете не думати, що це є важливою змінною, яку слід контролювати, але інші можуть. Звичайно, існують й інші дуже важливі суттєві причини для виключення змінної, наприклад, це може бути викликано результатом.


3

З вашого формулювання це звучить так, ніби ви схильні скинути останній прогноктор, оскільки його прогнозне значення низьке; суттєва зміна цього прогноктора не означатиме суттєвої зміни змінної відповіді. Якщо це так, то мені подобається цей критерій для включення / відмови прогноктора. Це більш обґрунтовано в практичній реальності, ніж може бути АПК або BIC, і більш зрозуміло вашій аудиторії для цього дослідження.


Так, саме це я і мав на увазі.
П Селлаз
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.