Є багато про колінеарність щодо безперервних прогнозів, але не так багато, що я можу знайти на категоричних прогнозах. У мене дані цього типу проілюстровані нижче.
Перший фактор - генетична змінна (кількість алелів), другий - категорія захворювання. Очевидно, що гени передують захворюванню і є фактором прояву симптомів, що призводять до діагностики. Однак регулярний аналіз, що використовує площі квадратів II або III, як це зазвичай робиться в психіці з SPSS, не пропускає ефект. Аналіз квадратів I типу підбирає його, коли вводиться відповідний порядок, оскільки це залежить від порядку. Крім того, ймовірно, що в процесі хвороби можуть бути додаткові компоненти, які не пов'язані з геном, які недостатньо ідентифіковані з типом II або III, див. Anova (lm1) нижче проти lm2 або Anova.
Приклад даних:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 з типом I SS мені здається відповідним способом аналізу даних, наданих фоновою теорією. Чи правильне моє припущення?
- Я звик чітко маніпулювати ортогональними конструкціями, де ці проблеми зазвичай не виникають. Чи важко переконати рецензентів, що це найкращий процес (якщо припустити, що пункт 1 є правильним) у контексті центрального поля SPSS?
- І що повідомити у розділі статистики? Будь-який додатковий аналіз, чи коментарі, які повинні пройти?