Проблема, яку ви маєте (тобто "особливості"), можна розглядати як приклад мультиколінеарності . Мультиколінеарність часто визначають як:
Одна чи більше змінних предиктора є лінійною комбінацією інших змінних предиктора.
Це, власне, досить суворе визначення; це ідеальна мультиколінеарність, і ви можете легко виникнути проблеми з мультиколінеарністю, без того, щоб ваші змінні були ідеальними лінійними комбінаціями інших. Більше того, ідеальна мультиколінеарність трапляється рідко. Однак ви натрапили на випадок, коли це може статися. Давайте подивимося , як ми можемо абсолютно передбачити medium quality
з наших знань про двох інших категорій (ми будемо робити це з допомогою регресійної моделі , де medium quality
є , і & є X 1 і X 2 , відповідно): Y = β 0 + β 1Ybad quality
high quality
X1X2
Зауважимо, що термін помилки, ε , не вказаний, тому що ми можемо передбачити це ідеально. Для цього встановимо β 0 = 1 , β 1 = - 1 , а β 2 = - 1 . Тепер, коли у вас є, то X 1 = 1 , що скасовує β 0 ( 1
Y=β0+β1X1+β2X2
εβ0=1β1=−1β2=−1bad quality
X1=1β0 ), і
X 2 = 0, тому термін також скасовується (
- 1 × 0 ). Таким чином, нам залишається передбачуване значення
0 для
Y1+−1×1X2=0−1×00Y (
medium quality
), що є абсолютно правильним. Я залишу це вам, щоб опрацювати інші можливості (це завжди працює, у вашому випадку).
То що ж тоді робити? Представляючи категоричну змінну, ми зазвичай використовуємо опорне кодування клітинки (часто її називають "фіктивним кодуванням"). Для цього ми вибираємо один рівень нашої категоріальної змінної як еталонний рівень; цей рівень не отримує власного макетного коду, а просто вказується, маючи всі в кодах манекена для всіх інших рівнів. Інші рівні вашої категоричної змінної представлені фіктивними кодами так само, як ви це зробили. (Для отримання додаткової інформації про це, ви можете побачити мою відповідь тут: Регресія, заснована, наприклад, на дні тижня .) Якщо ви використовуєте , ви можете використовувати та0R
factor
R
, зробить це все за вас - це буде зроблено правильно, і це набагато зручніше - тим не менш, варто розуміти, що це те, що відбувається «за кадром».