Колінеарність між категоричними змінними


11

Є багато про колінеарність щодо безперервних прогнозів, але не так багато, що я можу знайти на категоричних прогнозах. У мене дані цього типу проілюстровані нижче.

Перший фактор - генетична змінна (кількість алелів), другий - категорія захворювання. Очевидно, що гени передують захворюванню і є фактором прояву симптомів, що призводять до діагностики. Однак регулярний аналіз, що використовує площі квадратів II або III, як це зазвичай робиться в психіці з SPSS, не пропускає ефект. Аналіз квадратів I типу підбирає його, коли вводиться відповідний порядок, оскільки це залежить від порядку. Крім того, ймовірно, що в процесі хвороби можуть бути додаткові компоненти, які не пов'язані з геном, які недостатньо ідентифіковані з типом II або III, див. Anova (lm1) нижче проти lm2 або Anova.

Приклад даних:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. lm1 з типом I SS мені здається відповідним способом аналізу даних, наданих фоновою теорією. Чи правильне моє припущення?
  2. Я звик чітко маніпулювати ортогональними конструкціями, де ці проблеми зазвичай не виникають. Чи важко переконати рецензентів, що це найкращий процес (якщо припустити, що пункт 1 є правильним) у контексті центрального поля SPSS?
  3. І що повідомити у розділі статистики? Будь-який додатковий аналіз, чи коментарі, які повинні пройти?

Дивно чути, що хтось, хто використовує SPSS, знає лише тип III або II SS. І ти звучиш так.
ttnphns

2
Ну, у мене раніше був той самий розрив знань, про який я згадую у своєму питанні. Це, здається, більше відображає інтереси, знання людей та те, як вони знайомляться з програмним забезпеченням, а не з самим програмним забезпеченням. Але параметри за замовчуванням також відіграють велику роль, коли параметр типу III за замовчуванням використовується в SPSS.
Метт Альбрехт

Ви, здається, говорите, що у вас є спосіб ввести 2 предикторів у визначеному порядку, використовуючи процедуру anova SPSS (unianova?). Я знаю лише спосіб визначення порядку, перейшовши на процедуру регресії. Як ви це досягаєте?
rolando2

Відповіді:


8

Колінеарність між факторами досить складна. Класичний приклад - це той, який ви отримуєте, коли групуєте та манекен-кодуєте три безперервні змінні 'вік', 'період' та 'рік'. Він аналізується в:

Отримані коефіцієнти після вилучення чотирьох (не трьох) посилань ідентифікуються лише до невідомої лінійної тенденції. Це можна проаналізувати, оскільки колінеарність виникає із відомої колінеарності у вихідних змінних (вік + рік = період).

Деяка робота також була зроблена над хибною колінеарністю між двома факторами. Вона була проаналізована в:

Підсумок полягає в тому, що колінеарність серед категоричних змінних означає, що набір даних повинен бути розділений на роз'єднані частини, з еталонним рівнем у кожному компоненті. Розрахункові коефіцієнти різних компонентів неможливо порівняти безпосередньо.

Для складніших колінеархійностей між трьома і більше факторами ситуація є складною. Існують процедури знаходження оцінюваних функцій, тобто лінійні комбінації коефіцієнтів, які можна інтерпретувати, наприклад у:

  • "Про з'єднання конструкцій рядків-стовпців" Годольфіна та Годольфіна в Utilitas Mathematica (60) С. 51-65

Наскільки мені відомо, загальної срібної кулі для інтуїтивно зрозумілого поводження з такими колінеарними елементами немає.


1

Після спілкування з деякими статистичними людьми навколо місця. Здається, такий тип запитань може бути не найбільш правильним питанням. Використання ANOVA (або подібних методів) для дослідження генетичних та діагностичних взаємодій щодо нейропсихологічних заходів, коли вони сильно корелюються, є складним питанням. Натомість мене вказували на вивчення структури даних за допомогою структурного моделювання рівнянь.

Ця відповідь буде оновлена, коли я дізнаюся більше про SEM.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.