Який сенс одноманітної регресії перед багатоваріантною регресією?


13

Зараз я працюю над проблемою, за якою у нас є невеликий набір даних, і ми зацікавлені в ефекті причинності лікування на результат.

Мій радник доручив мені виконати одноманітну регресію для кожного прогноктора з результатом як відповідь, потім призначення лікування як відповідь. Тобто, мене просять встановити регресію по одній змінній за один раз і скласти таблицю результатів. Я запитав "навіщо нам це робити?", І відповідь була чимось наслідком "нас цікавить, які прогноктори пов'язані з призначенням та результатом лікування, оскільки це, ймовірно, свідчить про припущення". Мій радник - це підготовлений статистик, а не вчений у іншій галузі, тому я схильний довіряти їм.

Це має сенс, але незрозуміло, як використовувати результат одновимірного аналізу. Чи не зробити вибір вибору моделі з цього результату суттєвим зміщенням оцінок та вузькими інтервалами довіри? Чому хтось повинен це робити? Я розгублений, і мій радник досить непрозорий з цього питання, коли я його висував. Хтось має ресурси на цю техніку?

(NB: мій радник сказав, що ми НЕ використовуємо значення p як відрізане, але що ми хочемо вважати "все".)


6
Якщо за допомогою "універсальної регресії" ваш інструктор включав би малювання розсипача, то це справді мудра порада. А оскільки жодна регресія, про яку ви коли-небудь піклуєтесь, не повинна проводитись без створення змови, ви отримаєте корисну інформацію. Робіть це все відразу, якщо зможете, за допомогою матриці розсипання і покажіть з ними кілька надійних гладких. Переваги будуть очевидними, коли ви побачите різні способи, якими ваші змінні можуть відступити від виявлення лінійних співвідношень.
whuber

1
Що робити, якщо дані відповіді є двійковими, і ми використовуємо glm із посиланням logit? Ваше пояснення, безумовно, з’ясовує для лінійного випадку, і тепер, коли я думаю про це, використання сюжетних ділянок було б природним
Марсель

5
Я хвилювався, що ви можете запитати :-). Насправді, хороший гладкий все-таки може забезпечити прекрасне розуміння. Це допомагає тремтіти відповідь, щоб ви могли розкрити її розповсюдження. Ось приклад такого сюжету: stats.stackexchange.com/a/14501/919 . Я ілюструю інше рішення на сайті stats.stackexchange.com/a/138660/919 .
whuber

3
Ця універсарна регресія перед багатовимірною регресійною технікою називається "цілеспрямованим вибором змінної" у книзі Хосмера та Лемешоу "Прикладна логістична регресія"
Великий38

7
Обережно - змінна може не виявляти жодних стосунків у незмінній регресії, але є важливою у багатоваріантних відносинах.
Glen_b -Встановіть Моніку

Відповіді:


3

Причинний контекст вашого аналізу є ключовим фактором у вашому питанні. Прогнозуючи, що одноманітні регресії до декількох регресій у дусі "цілеспрямованого методу відбору", запропонованого Хосмером та Lemenshow, мають одну мету. У вашому випадку, коли ви будуєте причинну модель, виконання одноманітних регресій перед запуском множинної регресії має зовсім іншу мету. Дозвольте розкрити останнє.

Ви та ваш інструктор повинні мати на увазі певний причинний графік. Причинно-наслідкові графіки мають випробовувані наслідки. Ваша місія полягає в тому, щоб почати з набору даних, який у вас є, і обґрунтувати причинно-наслідкову модель, яка могла б її створити. Універсальні регресії, за якими він запропонував запустити, швидше за все, є першим кроком у процесі перевірки наслідків причинного графіка, який ви маєте на увазі. Припустимо, ви вважаєте, що ваші дані були сформовані за допомогою причинної моделі, зображеної на графіку нижче. Припустимо, вас цікавить причинний вплив D на E. Наведений нижче графік пропонує безліч перевірених наслідків, таких як:

  • E є D, ймовірно, залежні
  • E і A, ймовірно, залежать
  • E і C, ймовірно, залежать
  • E і B, ймовірно, залежать
  • E і N, ймовірно, незалежні

введіть тут опис зображення

Я згадував, що це лише перший крок у процесі причинного пошуку, оскільки справжня розвага починається, як тільки ви починаєте виконувати кілька регресій, обумовлюючи різні змінні та перевіряючи, чи відповідає результат регресії наслідком графіка. Наприклад, на наведеному вище графіку випливає, що E і A повинні бути незалежними, коли ви ставите умову на D. Іншими словами, якщо ви регресуєте E на D і A і виявите, що коефіцієнт на A не дорівнює нулю, ви зробите висновок, що E залежить від A, після того, як ви поставите умову на D, а отже, причинний графік повинен бути неправильним. Це навіть дасть вам підказки, як змінити свій причинний графік, оскільки результат цієї регресії говорить про те, що між A і E повинен бути шлях, який не d-розділений на D.


1

Перш ніж спробувати відповісти, я хотів би зазначити, що тип даних та їх розповсюдження можуть впливати на те, як ви оцінюєте / регресуєте / класифікуєте їх.

Також ви можете поглянути тут на метод, яким може скористатися ваш радник.

Трохи тла. Хоча використання інструменту вибору моделі є можливістю, ви все ще повинні бути в змозі сказати, чому предиктор використовувався чи не був. Ці інструменти можуть бути чорною скринькою. Ви повинні повністю зрозуміти свої дані та бути в змозі вказати, чому був обраний конкретний предиктор. (Тим більше, я припускаю дисертацію / магістерський проект.)

Наприклад, подивіться на ціну будинків та вік. Ціна будинків, як правило, зменшується з віком. Тому, коли ви бачите старий будинок з високою ціною у своїх даних, це виглядало б як стороння особа, яку потрібно зняти, але це не так.

Щодо (зверніть увагу: мій радник сказав, що ми НЕ використовуємо р-значення як скорочення, а що ми хочемо вважати "все". . Нагадаємо, алгоритми / програми обмежені і не можуть переглянути всю картину.

Щодо того, чому ви можете однозначно регресувати на кожному призначенні прогнозу / лікування.

Це може допомогти у виборі прогнозів для включення до основної багатоваріантної моделі. З цієї базової моделі ви б хотіли дізнатись, чи є ці прогнози значущими і чи повинні вони залишитися або чи їх слід усунути з метою отримання парсимонізованої моделі.

Або ви могли б краще зрозуміти дані.


1
Ми з дружиною купили старий будинок, але не могли дозволити собі історичний будинок, тому ваш приклад має простий зустрічний приклад.
Нік Кокс

Правда. Я мав на увазі поговорити про ціну будинків. Як ціни на будинки, як правило, зменшуються з віком. Тому, коли ви бачите старий будинок з високою ціною, він би виглядав як чужина, яку потрібно зняти. Я відредагую цю точку. Дякую.
Апокриф

0

Я думаю, що ваш керівник просить зробити перший аналіз даних з метою визначення, чи будь-яка зі змінних може пояснити значну частину дисперсії в даних.

Після того, як ви зробили висновок, що будь-яка зі змінних може пояснити певну мінливість, ви зможете оцінити, як вони працюють разом, якщо вони є колінними, або співвідносяться між собою тощо. На чисто дослідницькій фазі провести багатофакторний аналіз можна зробити першу оцінку складніше, оскільки, будуючи кожну змінну, ви видалили б ефект інших. Бути важче оцінити, чи будь-яка зі змінних може пояснити будь-яку з варіацій.


0

Це може бути підхід до розуміння даних, але досвід показує, що прогнози будуть різними, коли ви використовуєте всі передбачувачі у поєднанні та кожен передбачувач по одному. Це просто те, що ми розуміємо передбачуваність даних і розуміємо, що потрібно зробити для подальших кроків.
Я неодноразово бачив, коли з усіма змінними значення р говорить, що деякі змінні не є істотними, але лише для цих незначних змінних вони були досить вагомими. Це пов'язано зі змішаним ефектом: справа не в тому, що ваш керівник помиляється, але щоб зрозуміти дані, ми повинні це зробити.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.