Чи мультиколінеарність неявна категоричним змінним?

10

Я зауважив, що повозився з багатоваріантною регресійною моделлю, був невеликий, але помітний ефект мультиколінеарності, виміряний коефіцієнтами дисперсії, в межах категорії категоріальної змінної (звичайно, виключаючи референтну категорію).

Наприклад, скажімо, у нас є набір даних із суцільною змінною y та однією номінальною категоріальною змінною x, яка має k можливих взаємовиключних значень. Ми закодувати ці можливі значення, 0/1 фіктивні змінні . Потім запускаємо регресійну модель . Оцінки VIF для фіктивних змінних виявляються не нульовими. Насправді, у міру збільшення кількості категорій збільшуються ВІФ. Центрирування фіктивних змінних, схоже, не змінює VIF. $k$ $x_1, x_2,\dots ,x_k$ $y = b_0 + b_1x_1 + b_2x_2 + \dots + b_{k-1}x_{k-1}$ $k-1$

Інтуїтивно зрозумілим поясненням є те, що взаємовиключна умова категорій у межах категоріальної змінної викликає цю незначну мультиколінеарність. Це банальна знахідка чи це питання, що слід враховувати при побудові регресійних моделей з категоричними змінними?

regression categorical-data multicollinearity

— RobertF
джерело

8

Я не можу точно відтворити це явище, але можу продемонструвати, що ВІФ не обов'язково збільшується, оскільки кількість категорій збільшується .

Інтуїція проста: категоричні змінні можна зробити ортогональними відповідними експериментальними конструкціями. Таким чином, не повинно бути, взагалі НЕ відносини між кількістю категорій і мультіколлінеарності.

Ось Rфункція створення категоричних наборів даних із визначеним числом категорій (для двох незалежних змінних) та визначеним кількістю реплікацій для кожної категорії. Він являє собою збалансоване дослідження, в якому кожне поєднання категорій спостерігається рівною кількістю разів, : $n$

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

Застосовуючи це, я знаходжу, що ВІФ завжди знаходяться на найнижчих можливих значеннях , відображаючи врівноваження (що перекладається на ортогональні стовпці в проектній матриці). Деякі приклади: $1$

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

Це говорить про те, що мультиколінеарність може зростати через зростаючий дисбаланс у дизайні . Щоб перевірити це, вставте рядок

  df <- subset(df, subset=(y < 0))

перед fitрядком в trial. Це видаляє половину даних навмання. Повторний запуск

sapply(1:5, function(i) trial(i, 10, 3))

показує, що ВІФ вже не дорівнює (але вони залишаються близькими до нього випадковим чином). Вони все ще не збільшуються з більшою кількістю категорій: дає порівнянні значення. $1$ sapply(1:5, function(i) trial(i, 10, 10))

— дзижчати
джерело

2

У вас є обмеження, яке ви можете бачити, притаманне багаточленним розподілам, а саме, що один і лише один з s буде дорівнює 1, а всі інші будуть 0. Отже, у вас лінійне обмеження . Це означає, що скажіть де сума взята над . Це ефект колінеарності, який ви помічаєте. У цьому немає нічого незвичайного або тривожного. $x_i$ $\sum x_i =1$ $x_1 =1 - \sum x_i$ $i \neq 1$

— Майкл Р. Черник
джерело

Я не розумію, які мультиноміальні розподіли стосуються даної ситуації. Чи можете ви пояснити?

— whuber