Більш чітке обговорення варіабельного вибору


55

Фон

Я займаюся клінічними дослідженнями в медицині і пройшов кілька курсів статистики. Я ніколи не публікував папір з використанням лінійної / логістичної регресії і хотів би зробити вибір змінної правильно. Інтерпретабельність є важливою, тому немає фантазійних методик машинного навчання. Я узагальнив своє розуміння варіабельного вибору - чи хтось буде проти пролити світло на якісь помилки? Я знайшов два (1) подібних (2) резюме до цього, але вони не повністю відповіли на мої проблеми. Будь-які думки були б вдячні! У мене є 3 первинних питання в кінці.

Проблема та обговорення

Моя типова проблема регресії / класифікації має 200-300 спостережень, рівень несприятливих подій 15% (якщо класифікація) та інформацію про 25 із 40 змінних, які, як стверджується, мають "статистично значимий" ефект у літературі або роблять правдоподібними. сенс за доменними знаннями.

Я вкладаю "статистично значущі" в лапки, тому що, здається, всі і їх мати використовують ступінчату регресію, але Гаррелл (3) і Флом (4), здається, не люблять це з ряду вагомих причин. Це також підтримується дискусією в блозі Gelman (5). Здається, що єдиний реальний час, який є поетапним, є прийнятним, якщо це справді дослідницький аналіз, або він зацікавлений у прогнозуванні та має схему перехресної перевірки. Тим більше, що багато медичних захворювань страждають від колінеарності І дослідження страждають від малого розміру вибірки, я розумію, що в літературі буде багато помилкових позитивних результатів; це також змушує мене довіряти літературі для включення потенційних змінних.

Інший популярний підхід полягає у використанні ряду універсальних регресій / асоціацій між предикторами та незалежною змінною в якості вихідної точки. нижче певного порогу (скажімо, р <0,2). Це здається невірним або принаймні оманливим з причин, викладених у цій публікації про StackExchange (6).

Нарешті, автоматизований підхід, який видається популярним у машинному навчанні, полягає у використанні пеналізацій, таких як L1 (Lasso), L2 (Ridge) або L1 + L2 combo (Elastic Net). Я розумію, що вони не мають таких самих легких тлумачень, як OLS або логістична регресія.

Gelman + Hill пропонує наступне:

гельман

У своєму курсі "Статистика" я також пригадую використання тестів F або "Аналіз відхилення" для порівняння повних і вкладених моделей, щоб зробити модель / зміну вибору змінної за змінною. Це здається розумним, але придатні послідовні вкладені моделі систематично знаходити змінні, які спричиняють найбільше падіння відхилення на df, здається, що це може бути легко автоматизовано (тому я трохи стурбований), а також здається, що він страждає від проблем того порядку, в якому ви перевіряєте змінне включення. Я розумію, що це також слід доповнити дослідженням мультиколінеарності та залишкових сюжетів (залишковий проти прогнозованого).

Запитання:

  1. Чи підсумовується підсумок Gelman? Що ви додали б або змінили у запропонованій йому стратегії?

  2. Крім чистого роздуму над потенційними взаємодіями та перетвореннями (що здається дуже упередженим / схильним / упущеним), чи є інший спосіб виявити потенційні? Мені було рекомендовано багатоваріантний адаптаційний регресійний сплайн (MARS) , але мені повідомили, що нелінійності / перетворення не перетворюються на ті самі змінні в стандартній моделі регресії.

  3. Припустимо, моя мета дуже проста: скажіть, "я хотів би оцінити асоціацію X1 з Y, припадаючи лише на X2" Чи достатньо просто регресувати Y ~ X1 + X2, повідомляти про результат, не посилаючись на фактичну здатність прогнозування (як це можна виміряти за допомогою перехресної перевірки RMSE або мір точності)? Чи змінюється це залежно від частоти подій або розміру вибірки, або якщо R ^ 2 надто низький (я знаю, що R ^ 2 не є добрим, тому що ви завжди можете збільшити його за рахунок перевищення)? Мене, як правило, більше цікавить умовивід / інтерпретація, ніж оптимізація прогнозованої сили.

Приклади висновків:

  1. "Контроль за X2, X1 не був статистично достовірно пов'язаний з Y відносно еталонного рівня X1." (коефіцієнт логістичної регресії)
  2. "X1 не був статистично значущим предиктором Y, оскільки в моделі падіння відхилення було недостатньо відносно зміни df." (Аналіз відхилення)

Чи завжди необхідна перехресна перевірка? У такому випадку, можливо, також потрібно виконати балансування класів за допомогою SMOTE, вибірки тощо.



6
Незалежно від того, чи можна щось автоматизувати (зараз - до появи сильного ШІ), вражає мене червоною оселедцем.
gung - Відновіть Моніку

7
+1 за дуже продумане запитання. Одне, що свідчить у вашому огляді, - це те, що не існує стандартного рецепту чи кулінарної книги для варіативного вибору. Усі мають інший підхід і набір "найкращих" практик. Тоді існує дуже важлива відмінність теоретичної чи популяційної моделі від емпірично керованої - ці різні рамки рідко вирівнюються і їх легко зв'язати. Ваше занепокоєння з приводу "пропуску" чогось не є безпідставним, але реальність полягає в тому, що переконливої, однозначної відповіді просто не існує. Підходи, які ви переглянули, широко документовані, виберіть один
Майк Хантер

4
Гаррелл, Флом і Коласа; це врегульовано тоді.
gung - Відновіть Моніку

4
4 (b) Re Gelman & Hill: Harrell, RMS 1st edn, p60: "Кінцева проблема варіабельного вибору проілюстрована шляхом порівняння цього підходу [крок крок] з розумним способом, який розробляє багато економістів з регресії. Економісти часто використовують стратегію видалення лише тих змінних, які незначні & коефіцієнти регресії мають нечутливий напрямок ". І я, мабуть, згадую, що Стейерберг збирався написати документ про це. [Спробуємо знайти посилання. коли я отримаю шанс.]
Scortchi - Відновіть Моніку

Відповіді:


46

Ендрю Гельман, безумовно, шановане ім’я в статистичному світі. Його принципи тісно узгоджуються з деякими дослідженнями причинно-наслідкового моделювання, проведеними іншими "великими іменами" в цій галузі. Але я думаю, враховуючи ваш інтерес до клінічних досліджень, вам слід порадитися з іншими джерелами.

Я вживаю слово "причинно-наслідковий" (як і інші), оскільки є чітка грань, яку ми повинні провести між виконанням "причинного висновку" з даних спостережень та твердженням причинно-наслідкових зв’язків між змінними. Ми всі згодні з тим, що РХТ є основним способом оцінки причинності. Ми рідко підлаштовуємося під будь-що в таких випробуваннях за припущенням рандомізації, за невеликими винятками ( Senn, 2004 ). Спостережні дослідження мають свою важливість та корисність ( Weiss, 1989 ), а підхід, заснований на контрфактиці, до висновку з даних спостережень, приймається як філософсько обгрунтований підхід до цього ( Höfler, 2005 ). Часто це дуже наближає ефективність використання, виміряну в РКЗ ( Anglemyer, 2014 ).

Тому я зупинюсь на дослідженнях, отриманих на основі даних спостережень. Моя точка розбрату з рекомендаціями Гельмана полягає в наступному : всі провісників в моделі і їх покладена причинний зв'язок між одним впливом інтересів і один результатом інтересу повинна бути визначена апріорно . Введення та виключення коваріатів на основі їх взаємозв'язку між сукупністю основних висновків насправді викликає особливий випадок «статистичної сітки Мюнхгаузена» ( Martin, 1984 ). Деякі журнали (і ця тенденція все частіше сприймає) узагальнено відхилять будь-яку статтю, яка використовує поетапну регресію для визначення остаточної моделі ( Бабяк, 2004 ), і я думаю, що проблема розглядається аналогічно.

Обґрунтування включення та виключення коваріатів у моделі обговорюється у «Причинності Джудії Перла» ( Pearl, 2002 ). Це, мабуть, один з найкращих текстів для розуміння принципів статистичного висновку, регресії та багатоваріантного коригування. Також Сандерс та Гренландія висвітлює практично все, зокрема їх обговорення збитку з пантелику, які, на жаль, опущені з цього списку рекомендацій ( Greenland et al. 1999). Конкретні коваріати можуть бути присвоєні мітками на основі графічного відношення до причинної моделі. Позначення, такі як прогностичні, переконливі чи точні змінні, вимагають включення як коваріати в статистичні моделі. Посередників, колайдерів або змінних, що знаходяться поза причинним шляхом, слід опустити. Визначення цих термінів зроблені суворо з великою кількістю прикладів причинності.

Враховуючи це невелике тло, я звернусь до пунктів один за одним.

  1. Це, як правило, обгрунтований підхід із одним основним застереженням: ці змінні НЕ повинні бути посередниками результату. Наприклад, якщо ви перевіряєте взаємозв'язок між курінням і фізичною підготовкою і налаштовуєте на функцію легенів, це послаблює ефект куріння, оскільки це прямий вплив на фітнес - це зменшення функції легенів. Це не повинно НЕслід плутати з непорозумінням, коли третя змінна є причиною предиктора інтересу ТА результату інтересу. Конфузери повинні бути включені в моделі. Крім того, перевиконання може спричинити численні форми зміщення в аналізах. Медіатори та плутанини вважаються такими НЕ через те, що знайдено в аналізах, а через те, що ВІРУЄТЬСЯ ВАМ як експерт з предметів (МСП). Якщо у вас є 20 спостережень на змінну чи менше, або 20 спостережень на подію в аналізі часу до події або логістичного аналізу, слід замість цього розглянути умовні методи.

  2. Це відмінний підхід до енергозбереження, який не є таким складним, як коригування показника схильності або аналіз SEM або фактор. Я б точно рекомендував робити це по можливості.

  3. Я не погоджуюся від усієї душі. Суть коригування для інших змінних в аналізах полягає у створенні шарів, для яких можливі порівняння. Неправильне визначення конфіденційних відносин, як правило, не призводить до надурених аналізів, тому залишковий плутанини від пропущених термінів взаємодії, на мій досвід, не є великою проблемою. Однак ви можете розглянути умови взаємодії між прогнозувачем, що цікавить, та іншими змінними як пост-спеціальний аналіз. Це процедура, що генерує гіпотезу, яка має на меті уточнити всі можливі висновки (або їх відсутність) як. потенційно належать до підгрупи або b. що включає механічну взаємодію двох екологічних та / або генетичних факторів.

  4. Я також не погоджуюся з цим від усієї душі. Це не збігається з підтверджувальним аналізом підходом до регресії. Ви МСП. Про аналізи слід повідомляти ЗАПИТАННЯ, а не ДАНІ. Впевнено констатуйте те, що, на вашу думку, відбувається, грунтуючись на пікторальному зображенні причинно-наслідкової моделі (використовуючи DAG та пов'язані з нею принципи Pearl та ін.), А потім вибирайте прогнози для вашої моделі інтересу, підходите та обговорюйте. Тільки як вторинний аналіз слід розглядати цей підхід навіть взагалі.

Роль машинного навчання у всьому цьому є дуже дискусійною. Взагалі машинне навчання орієнтоване на прогнозування, а не на умовиводи, які є різними підходами до аналізу даних. Ви маєте рацію, що інтерпретація ефектів від санкціонованої регресії не може бути легко інтерпретована для нестатистичної спільноти, на відміну від оцінок OLS, де 95% ІС та оцінки коефіцієнтів забезпечують міру асоціації.

Інтерпретація коефіцієнта з OLS-моделі Y ~ X є простою: це нахил, очікувана різниця у Y порівнянні груп, що відрізняється на 1 одиницю в X. У багатоваріантній скоригованій моделі Y ~ X1 + X2 ми модифікуємо це як умовне нахил: це очікувана різниця Y порівняння груп, що відрізняються на 1 одиницю в X1, які мають однакове значення X2. Геометрично, коригування для X2 призводить до різних прошарків або "перерізів" трьох просторів, де ми порівнюємо X1 з Y, тоді ми оцінюємо результати за кожною з цих верств. У R coplotфункція дуже корисна для візуалізації таких відносин.


Дуже ціную ваш детальний коментар - я ніколи раніше ні в кого не відповідав на мої запитання. Я зараз переглядаю ваші посилання!
sharper_image

1
(+1) У пункті № 1: G&H кажуть, що це "загальні принципи побудови регресійних моделей для прогнозування " [моя курсива], тому ваш застереження не потрібно застосовувати. (Можливо, ті рідкісні курці з хорошою функцією легенів справді мають особливу придатність.) Коли вони починають обговорювати причинно-наслідкові моделі, вони ставлять те саме (гл. 9.7).
Scortchi

2
(+1) Видатна відповідь, AdamO! Цінуючи, що ви вже зробили величезну кількість робіт, мені цікаво, чи не могли б ви сказати щось більше, що ви знаєте про поточний статус прийняття згаданої вами журнальної політики. Я все ще впадаю в приступ гніву, коли принаймні бачу слово "покроково" в журналах JAMA. Чи можете ви цитувати редакцію щодо цієї політики?
Девід К. Норріс

2
@ DavidC.Norris "Навчально-психологічний вимір" - це журнал, про який йдеться, і на жаль, стаття Бабяка лише обговорює автоматизовану ступінчату регресію. Я бачив в деяких статтях авторів, які обговорюють "практичний" підхід до включення та переобладнання моделей як "поетапний" (хоча і не автоматизований). Я б стверджував, що вони правильно описали процедуру, яку вони застосовували, але я все ще маю суперечку з таким підходом.
AdamO

1/2 +1 Прекрасна відповідь. Ніггель: "Конфузенти повинні бути включені в моделі." Залежно від конкретних причинно-наслідкових зв’язків, які беруть участь у цьому, можуть ухилити асоціації від причинної оцінки. Наприклад, у DAG, описаному , , , , а , - конфудент , як у сенсі критерію "backdoor", так і в класичному (i), пов'язаному з & , (ii) причиною або , і (iii) до &U 1L U 1A U 2Y U 2L L A Y A Y A Y E [ Y | A , L ] A - U 1 - L - U 2 - YLAU1LU1AU2YU2LLAYAYAYсенс. Однак є упередженим (від ). E[Y|A,L]AU1LU2Y
Олексій

9

Це чудове запитання та вичерпна відповідь @ AdamO - це прекрасний приклад того, як резюме регулярно відновлює мою віру в людство. Я головним чином націлюсь тут запропонувати деякі способи оцінити цю відповідь (і питання ОП) в більш широкому контексті.

Під - перше, я насмілюся стверджувати , що всі надійні рекомендації щодо статистичної практики є застереженням в природі - про scriptive , а не попередньо scriptive. Гельман & Hill пункт # 3, наприклад, в той час як він читає поверхнево як рада активно робити що - то ( «розглянути»), насправді краще розуміти як застерігає проти нездатності розглядати взаємодію з потужними ефектами. Інтуїтивно зрозуміле як звернення до інтуїції, пов'язане з вибором найважливіших термінів у (багатоваріантному) розширенні серії Тейлора , мені здається непереборним.

По-друге, хоча ОП зайнята здобуттям кращої освіти, ніж більшість докторів біологічних наук (дотримуючись цитатів Адамо), ОП також може взяти статистичні моделі Девіда А. Фрідмана та причинно-наслідкові умовиводи [1], де буде здоровим викликом. виявив презумпцію, що регресія повинна бути нашим основним інструментом у клінічних дослідженнях. Я рекомендую особливо главу 3, «Статистичні моделі та взуттєву шкіру» , який також доступний в раніше опублікованій формі [2] тут . (Не дозволяйте, щоб назва журналу вас відключала; ключові уроки - це дослідження, проведені Джона Сноу щодо холери. Дивіться також цю відповідь , де ці уроки викладені детально.)

Нарешті - і, можливо, це справді є наслідком для Фрідмана - слід зазначити, що приклад "висновків", запропонованих ОП, насправді належить до розділу " Результати ". Найздоровіше було б якомога раніше подумати про те, як би сформулювались справжні розділи висновків та обговорень , щоб бути доступними лікарям, ЗМІ та навіть зростаючій кількості пацієнтів та їхніх прихильників, які героїчно праці читати медичну літературу. Підтримуючи фокус на цій кінцевій точці, корисно сформуватиме технічну роботу статистичного аналізу та збереже її в реальності світу, який він має на меті описати, та потреб, яким він має на меті служити.


  1. Фрідман, Девід, Девід Колєр, Джассіет Сінгх Сехон та Філіп Б. Старк. Статистичні моделі та причинно-наслідкові умовиводи: діалог із суспільними науками. Кембридж; Нью-Йорк: Cambridge University Press, 2010.

  2. Фрідман, Девід А. «Статистичні моделі та шкіра взуття». Соціологічна методологія 21 (1991): 291–313. doi: 10.2307 / 270939.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.