Я хотів би використовувати дані підрахунку як коваріати під час встановлення логістичної регресійної моделі. Моє запитання:
- Чи я порушую будь-яке припущення про логістичні (і, загалом, загальні, лінійні) моделі, використовуючи підрахунок невід'ємних цілих змінних як незалежних змінних?
Я знайшов у літературі багато посилань на гарячі для використання дані підрахунку як результати, але не як на коваріати; див. для прикладу дуже чіткий документ: "NE Breslow (1996) Узагальнені лінійні моделі: перевірка припущень та посилення висновків, Конгресо національної організації" Societa Italiana di Biometria, Cortona, червень 1995 р. ", доступний за адресою http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Вкрай кажучи, здається, що припущення про glm можуть бути виражені так:
- iid залишки;
- функція зв'язку повинна правильно представляти взаємозв'язок між залежними та незалежними змінними;
- відсутність залишків
Чи всі знають, чи існує якась інша припущення / технічна проблема, яка може запропонувати використовувати якісь інші типи моделей для роботи з числовими коваріатами?
Нарешті, зауважте, що мої дані містять порівняно мало зразків (<100), і діапазон підрахунку змінних може змінюватися в межах 3-4 порядків (тобто деякі змінні можуть мати значення в діапазоні 0-10, тоді як інші змінні можуть мати значення в межах 0-10000).
Простий код прикладу R наступним чином:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################