Чи використання даних підрахунку як незалежної змінної порушує будь-які припущення GLM?


14

Я хотів би використовувати дані підрахунку як коваріати під час встановлення логістичної регресійної моделі. Моє запитання:

  • Чи я порушую будь-яке припущення про логістичні (і, загалом, загальні, лінійні) моделі, використовуючи підрахунок невід'ємних цілих змінних як незалежних змінних?

Я знайшов у літературі багато посилань на гарячі для використання дані підрахунку як результати, але не як на коваріати; див. для прикладу дуже чіткий документ: "NE Breslow (1996) Узагальнені лінійні моделі: перевірка припущень та посилення висновків, Конгресо національної організації" Societa Italiana di Biometria, Cortona, червень 1995 р. ", доступний за адресою http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Вкрай кажучи, здається, що припущення про glm можуть бути виражені так:

  • iid залишки;
  • функція зв'язку повинна правильно представляти взаємозв'язок між залежними та незалежними змінними;
  • відсутність залишків

Чи всі знають, чи існує якась інша припущення / технічна проблема, яка може запропонувати використовувати якісь інші типи моделей для роботи з числовими коваріатами?

Нарешті, зауважте, що мої дані містять порівняно мало зразків (<100), і діапазон підрахунку змінних може змінюватися в межах 3-4 порядків (тобто деякі змінні можуть мати значення в діапазоні 0-10, тоді як інші змінні можуть мати значення в межах 0-10000).

Простий код прикладу R наступним чином:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

Ласкаво просимо на сайт! Одне зауваження: якщо ви хочете підписати свої повідомлення, використовуйте свій профіль (особливо поле про мене).

11
зазвичай в моделях GLM передбачувані ("незалежні") змінні просто повинні бути деякими відомими константами, щодо них немає припущень щодо розподілу! Тож немає нічого поганого у використанні даних підрахунку в якості прогнозів.
kjetil b halvorsen

1
kjetil Це правильно - і хороша відповідь на питання. Однак, описані тут крайні діапазони IV, варто було б оцінити вплив даних, перевірити правильність придатності та особливо оцінити потенціал виникнення нелінійних відносин. Це буде зроблено з надією, що взаємозв'язок насправді є нелінійним і що повторне вираження IV, таких як корінь або журнал, лінеаризує його, тим самим одночасно позбавляючи деяких проблем впливу. Це, мабуть, те, що @ user14583 намагається вказати у своїй відповіді.
whuber

@kjetilbhalvorsen - я погоджуюся з "жодними припущеннями щодо розподілу", але я не думаю, що ти мав на увазі сказати "відомі" або "константи", як жодне з цих слів не підходить.
rolando2

4
Вони є "константами" в тому сенсі, що вони не є випадковими: немає розподілу. Вони "відомі" в тому сенсі, що їх прийнято вимірювати без помилок, тому виміряне значення - це те, що насправді працювало в механізмі генерування даних. Модель GLM передбачає, що вся випадковість знаходиться в механізмі реагування, що часто є сумнівним!
kjetil b halvorsen

Відповіді:


5

Тут є деякі нюанси, і вони можуть створювати певну плутанину.

Ви заявляєте, що розумієте, що припущення логістичної регресії включають " iid залишки ...". Я б стверджував, що це не зовсім правильно. Як правило, ми говоримо про загальну лінійну модель (тобто регресію), але в цьому випадку це означає, що залишки незалежні одна від одної, однаковий розподіл (як правило, нормальний) має однакове середнє значення (0) та дисперсію ( тобто постійна дисперсія: однорідність дисперсії / гомоскедастичності). Зауважте, що для розподілу Бернуллі та розподілу Бінома, дисперсія є функцією середнього. Таким чином, дисперсія не могла бути постійною, якщо тільки коваріат не був абсолютно не пов'язаний з відповіддю. Це було б припущення настільки обмежувальним, що робить логістичну регресію нікчемною. Зауважу, що в рефераті PDF, який ви цитуєте, він перераховує припущення, починаючи з "статистичної незалежності спостережень", яку ми могли б назвати i-but-not-id(без сенсу, що це надто мило).

Далі, як зазначає @kjetilbhalvorsen у коментарі вище , значення коваріату (тобто ваші незалежні змінні) передбачаються фіксованими в Узагальненій лінійній моделі. Тобто, особливих припущень щодо розподілу не робиться. Таким чином, не має значення, чи їх рахують, чи ні, чи вони становлять від 0 до 10, від 1 до 10000 або від -3,1415927 до -2,718281828.

Однак слід зауважити , як зазначає @whuber , якщо у вас є невелика кількість даних, які є надзвичайно екстремальними по одному з розмірів коваріату, ці точки можуть мати великий вплив на результати вашого аналізу. Тобто, ви можете отримати певний результат лише через ці моменти. Один із способів задуматися над цим - це зробити своєрідний аналіз чутливості , встановивши модель як з тими, так і без цих даних. Ви можете вважати, що безпечніше чи доцільніше відмовитися від цих спостережень, використовувати якусь форму надійного статистичного аналізу або трансформувати ці коваріати так, щоб мінімізувати крайні важелі цих пунктів. Я б не характеризував ці міркування як "припущення", але вони, безумовно, важливі міркування при розробці відповідної моделі.


1

Я б однозначно перевірив - це властивості розподілу ваших незалежних змінних. Дуже часто з даними про підрахунок ви бачите середній та сильний правий перекіс. У такому випадку ви, ймовірно, захочете трансформувати свої дані, оскільки ви втратите лінійно-лінійні відносини. Але ні, використання логістичної (або іншої GLM) моделі непогано.


3
Як правильний перекіс втрачає "лінійне відношення між журналом"?
Glen_b -Встановіть Моніку

3
Цей коментар мені здається некоректним. Як і @Glen_b, я не бачу, як це обов'язково втратить лінійно-лінійні відносини. У будь-якому випадку, краще було б вивчити відносини безпосередньо (наприклад, шляхом побудови графіку).
Пітер Флом - Відновити Моніку

2
Нелінійне перетворення IV обов'язково змінить лінійне відношення журналу до чогось іншого, @ Петер. Ця відповідь здається мені в основному правильною.
whuber

1
@whuber Я згоден, що нелінійне перетворення однієї змінної змінить співвідношення між нею та іншою змінною. Це здається досить зрозумілим. Але від якого роду відносини до якого роду? Чому б не вивчити відносини безпосередньо, а не припускати, як вони будуть змінені? Також відповідь, здається, говорить про те, що людина хоче втратити лінійні відносини журналу.
Пітер Флом - Відновіть Моніку

2
Це хороший момент @ Петер. Тим НЕ менше , деякі люди дійсно хочуть змінити відносини; це не обов'язково помилкове поняття. Я погоджуюсь, що пряма експертиза - це правильна процедура: вона запропонує, як повторно виразити IV (ів), що беруть участь, щоб створити лінійні зв’язки.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.