Гайки, спричинені використанням ступінчастої регресії


20

Я добре знаю проблеми поетапного / вперед / назад вибору в регресійних моделях. Є численні випадки, коли дослідники заперечують методи та вказують на кращі альтернативи. Мені було цікаво, чи є історії, які існують там, де статистичний аналіз:

  • застосував ступінчату регресію;
  • на основі кінцевої моделі зробили кілька важливих висновків
  • висновок був помилковим, що спричинило негативні наслідки для людини, їх досліджень чи організації

Моя думка з цього приводу, якщо поетапні методи погані, то в «реальному світі» повинні бути наслідки їх використання.


2
Якщо ви не знайдете таких історій, це може бути тому, що поетапна регресія в основному використовується в базових дослідженнях (або я так сприймаю). Основні дослідники, як правило, не виникають проблем за те, що вони помиляються, доки вони не підробили дані чи щось таке.
Кодіолог

3
Його багато використовують в галузі та в класі. У дослідженні автори, ймовірно, не розкривали б, що вони його використовували. У цій галузі основні дві причини: а) ті, хто цим займається, не пройшли навчання, наприклад, отримали ступінь бакалавра або б) закінчили десятиліття тому.
Аксакал

@Aksakal Не навчитися починати з, але все-таки отримати овечу шкіру - це проблема, не минув час. Exemplis gratis , я. Я взяв один курс статистики приблизно в 1971 році, і вперше використав статистику в публікації близько 2006.
Карл

Відповіді:


1

Вам задається більше одного питання. Найбільш вузький - це просити приклад того, коли ступінчаста регресія завдала шкоди, оскільки вона була здійснена поетапно. Це, звичайно, вірно, але це може бути встановлено однозначно лише тоді, коли дані, що використовуються для поетапної регресії, також публікуються, і хтось повторно аналізує їх та публікує корекцію рецензованих експертів з опублікованою первинною відмовою авторів. Зробити звинувачення в будь-якому іншому контексті ризикує юридичними діями, і, якщо ми будемо використовувати інший набір даних, ми могли б підозрювати, що була допущена помилка, але "статистика ніколи нічого не доводить", і ми не змогли б встановити, що помилка була зроблено; "поза розумним сумнівом".

Власне кажучи, часто можна отримувати різні результати залежно від того, чи здійснює ступінчасте усунення або поетапне складання рівняння регресії, які дозволяють нам припустити, що жоден підхід не є достатньо правильним, щоб рекомендувати його використання. Зрозуміло, що щось інше відбувається, і це приводить нас до більш широкого питання, також заданого вище, але в кульовій формі, що дорівнює "Які проблеми з поступовою регресією? Як би то не було це питання корисніше?" додала користь, що я не буду пред'являти проти мене судовий позов за відповідь.

Зробити це правильно для поетапного MLR, означає використовувати 1) фізично правильні одиниці (див. Нижче), і 2) відповідне перетворення змінної для найкращих кореляцій та типу розподілу помилок (для гомоскедастичності та фізичності) та 3) використання всіх перестановок змінних комбінацій, не поетапно, всі вони , і 4) якщо проводити вичерпну регресійну діагностику, то можна уникнути пропуску комбінацій змінних високих коефіцієнтів VIF (колінеарності), які в іншому випадку будуть вводити в оману, тоді винагорода краще регресує.

Як було обіцяно для №1 вище, ми далі вивчимо правильні одиниці для фізичної системи. Оскільки хороші результати регресії залежать від правильного поводження зі змінними, ми повинні пам’ятати про звичайні розміри фізичних одиниць і балансувати наші рівняння відповідним чином. Крім того, для біологічних застосувань потрібно усвідомлення та облік розмірності аллометричного масштабування .

Прочитайте цей приклад фізичного дослідження біологічної системи щодо того, як розширити балансування одиниць до біології. У цьому документі наведено етапи 1) - 4) вище, і найкраща формула була знайдена за допомогою розширеного регресійного аналізу, а саме , де - швидкість клубочкової фільтрації. , маркер катаболізму, де одиниці розуміють за допомогою фрактальної геометрії таким чином, що , вага був чотиривимірною фрактальною геометричною конструкцією , а V, об'єм, називався евклідовою, або тривимірною змінною. ТодіGFR=kW1/4V2/3GFRW1=1443+23. Так що формула розмірно відповідає метаболізму. Це не просте твердження. Вважайте, що 1) Зазвичай не оцінено (невідомо), що є маркером метаболізму. 2) Фрактальну геометрію викладають лише нечасто, і фізичне тлумачення представленої формули важко зрозуміти навіть тому, хто має математичну підготовку.ГЖR


2
Це, здається, описує проблему з регресією взагалі, а не ступінчатою регресією конкретно.
Випадковий статистик

2
Так, ці аспекти регресу слід розглядати загалом. Якщо я правильно розумію, звідки виникає питання, він мотивований поетапною регресією, яку часто засуджують на користь використання подібних даних LASSO, що не вирішить проблеми, які ви тут висловлюєте.
Випадковий статистик

4
Я ціную вашу відвертість і вашу добру волю в цьому питанні, Карл. Я не заперечую, що голосування має свої проблеми. Єдиний ефективний спосіб мене змінити голосування на посаді - змінити відповідь - або технічно покращити її, розширити її, або іншим чином передати ідеї - і навіть тоді немає гарантії, що вона отримає бажану відповідь (або взагалі будь-яка відповідь!). Іноді шанобливі зусилля, докладені для того, щоб розібратися у людях, що поступають, отримають інформацію, яка допомагає кожному оцінити (і підняти) такі зусилля щодо покращення посади.
whuber

3
@Carl Я думаю, що якщо ви отримуєте регулярні скачки, перше, що потрібно зробити, - це розглянути, як ви могли б покращити свої повідомлення (і часто у вас є коментарі, які пропонують покращення). Якщо говорити про себе, навіть там, де я не згоден з коментатором, виявляється, що вони часто ставлять питання, які все одно призводять до кращої відповіді. Я скажу, що я регулярно помічаю проблеми з вашими відповідями, які мало б змусили мене самому сприйняти це. Там, де в мене є час, я намагаюся залишити коментар.
Glen_b -Встановіть Моніку

3
Зауважте, що багато проблем поетапної регресії - такі, як проблеми з оцінками, ухиленими від 0, стандартні помилки, ухилені до 0, номінальний рівень помилок типу I набагато нижчий за фактичний, а різноманітні інші проблеми все ще існують у всіх підмножинах - - дійсно, це проблема практично з будь-якою формою оптимізації ( корисна довідка - глава 4 Франк Харрелла. Регресійні моделі моделювання регресії ). Усадка / регуляризація може пом'якшити деякі з цих питань (особливо тенденцію відбору до зміщення оцінок назовні), а оцінка поза вибіркою є важливим інструментом для багатьох з них.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.