Я зауважив, що повозився з багатоваріантною регресійною моделлю, був невеликий, але помітний ефект мультиколінеарності, виміряний коефіцієнтами дисперсії, в межах категорії категоріальної змінної (звичайно, виключаючи референтну категорію).
Наприклад, скажімо, у нас є набір даних із суцільною змінною y та однією номінальною категоріальною змінною x, яка має k можливих взаємовиключних значень. Ми закодувати ці можливі значення, 0/1 фіктивні змінні . Потім запускаємо регресійну модель . Оцінки VIF для фіктивних змінних виявляються не нульовими. Насправді, у міру збільшення кількості категорій збільшуються ВІФ. Центрирування фіктивних змінних, схоже, не змінює VIF.
Інтуїтивно зрозумілим поясненням є те, що взаємовиключна умова категорій у межах категоріальної змінної викликає цю незначну мультиколінеарність. Це банальна знахідка чи це питання, що слід враховувати при побудові регресійних моделей з категоричними змінними?