Як вибираєте змінні в регресійній моделі?


12

Традиційний підхід до вибору змінних полягає у пошуку змінних, які найбільше сприяють прогнозуванню нової відповіді. Нещодавно я дізнався про альтернативу цьому. При моделюванні змінних, що визначають ефект від лікування - як, наприклад, у клінічному випробуванні фармацевтичного препарату, - ця зміна вважається якісно взаємодіючоюз лікуванням, якщо, залишаючи інші речі виправленими, зміна цієї змінної може створити зміну, яке лікування є найбільш ефективним. Ці змінні не завжди є сильними провісниками ефекту, але можуть бути важливими для лікаря, коли він приймає рішення щодо лікування окремих пацієнтів. У своїй докторській дисертації Лейсі Гантер розробила метод вибору цих якісно взаємодіючих змінних, які могли бути пропущені алгоритмами, які базують вибір на прогнозуванні. Нещодавно я працював з нею над розширенням цих методів на інші моделі, включаючи логістичну регресію та моделі пропорційної регресії Кокса.

У мене є два питання:

  1. Що ви думаєте про цінність цих нових методів?
  2. Що стосується традиційних методів, який підхід ви віддаєте перевагу? Критерії, такі як AIC, BIC, Mallow Cp, F тести для введення чи випадання змінних поступово, вперед та назад ...

Перший документ про це вийшов у Gunter, L., Zhu, J та Murphy, SA (2009). Варіабельний вибір для якісних взаємодій . Статистична методологія doi: 10, 1016 / j.stamet.2009.05.003.

Наступний документ з'явився в Gunter, L., Zhu, J. and Murphy, SA (2011). Варіабельний вибір якісних взаємодій у персоналізованій медицині при контролі над рівнем помилок у сімейному режимі . Журнал біофармацевтичної статистики 21, 1063-1078.

Наступний з них з'явився у спеціальному випуску про змінний вибір Gunter, L., Chernick, MR та Sun, J. (2011). Простий метод відбору змінних в регресії по відношенню до вибору лікування . Пакистанський журнал статистики та експлуатаційних досліджень 7: 363-380.

Ви можете знайти статті на веб-сайтах журналу. Можливо, вам доведеться придбати статтю. У мене можуть бути файли pdf для цих статей. Ми з Лейсі щойно закінчили монографію на цю тему, яка буде опублікована як SpringerBrief пізніше цього року.


11
Можливо, я не дотримуюся - якщо є апріорна причина підозри на зміну ефекту, то чим ці нові методи відрізняються від, наприклад, включення термінів взаємодії у перелік змінних "кандидат" для вибору моделі?
Макрос

6
(1) Одне або кілька рядків, здається, втрачено в цьому питанні. Я думаю, що це може продовжуватися "поетапно, вперед і назад, ..." (2) Ідентифікація моделі та вибір змінних тут були широко обговорені тут. Наприклад, пошук за + модель + змінна + вибір представляє 145 ниток у цей момент. Звуження цього пошуку, ймовірно, відповість на друге питання. (3) Щоб полегшити відповіді на перше запитання, чи можете ви надати посилання або чіткі посилання на це дослідження?
whuber

2
Це питання включення змінної, яка взаємодіє з лікуванням. Але це якісна взаємодія, а не просто проста взаємодія. Для взаємодії дві лінії не повинні бути паралельними. Щоб якісно взаємодіяти, вони повинні перетинатися в інтервалі, в якому визначається змінна. Тож ідея - знайти змінну, яка якісно взаємодіє. Це відрізняється від вибору змінних та умов взаємодії, які покращують пристосування чи прогнозування.
Майкл Р. Черник

3
Дякуємо, що скористалися можливістю відповісти, Майкл. Можливо, ключовим моментом у тому, що цей сайт є не сайтом для обговорень, а скоріше сайтом із питань і запитань. З цим випливають деякі дещо інші способи спілкування. Поширені питання висвітлює це детально. Іноді нарізка може трохи загубитися, але насправді я надиваюсь рідко, як тільки я отримую трохи більше досвіду із загальною схемою речей. Ура.
кардинал

6
Майкл, так, система SE дещо звикає і не є досконалою. Але це має сенс і це послідовно. Одне, що ми прагнемо, - це постійне вдосконалення : на відміну від серверів списків та дощок оголошень, питання (та відповіді) можуть бути змінені; це очікується. Зрештою, ми хотіли б, щоб нитка почалася з одного, добре викладеного, повного питання, яке стоїть самостійно без посилання на нитку коментарів; тоді слід продовжувати одну чи кілька добре написаних, добре приписуваних канонічних відповідей. Маючи на увазі цей ідеал, пропозиції @ кардинала можуть мати для вас більше сенсу.
whuber

Відповіді:


2
  1. Див. Гельман і Хілл, Аналіз даних за допомогою регресії та багаторівневої / Ієрархічної моделі, стор. 69, у них є розділ про вибір моделі. Вона використовує підхід, заснований на питаннях, який є цілком чудовим, але у своїй роботі їй потрібно обґрунтувати, чому вона включила те, що робила у моделі. Так само, як ви сказали, "Ці змінні не завжди є сильними прогнозами ефекту, але можуть бути важливими для лікаря, коли він приймає рішення про лікування для окремих пацієнтів". до тих пір, поки вона виправдовує, чому слід включати ці прогнози, це добре. Особисто для мене я віддаю перевагу цим методам. Отож ось моя відповідь на 2.
  2. Поступово, вперед і назад, я думаю, це чорні скриньки. Якщо ви запускаєте модель через усі три, ви не доходите до одних і тих же прогнозів. Тому з точки зору використання, я б не мав однозначної відповіді. AIC або BIC добре використовувати для порівняння моделей.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.