Проблема, яку ви маєте (тобто "особливості"), можна розглядати як приклад мультиколінеарності . Мультиколінеарність часто визначають як:
Одна чи більше змінних предиктора є лінійною комбінацією інших змінних предиктора.
Це, власне, досить суворе визначення; це ідеальна мультиколінеарність, і ви можете легко виникнути проблеми з мультиколінеарністю, без того, щоб ваші змінні були ідеальними лінійними комбінаціями інших. Більше того, ідеальна мультиколінеарність трапляється рідко. Однак ви натрапили на випадок, коли це може статися. Давайте подивимося , як ми можемо абсолютно передбачити medium qualityз наших знань про двох інших категорій (ми будемо робити це з допомогою регресійної моделі , де medium qualityє , і & є X 1 і X 2 , відповідно): Y = β 0 + β 1Ybad qualityhigh qualityX1X2
Зауважимо, що термін помилки, ε , не вказаний, тому що ми можемо передбачити це ідеально. Для цього встановимо β 0 = 1 , β 1 = - 1 , а β 2 = - 1 . Тепер, коли у вас є, то X 1 = 1 , що скасовує β 0 ( 1
Y=β0+β1X1+β2X2
εβ0=1β1=−1β2=−1bad qualityX1=1β0 ), і
X 2 = 0, тому термін також скасовується (
- 1 × 0 ). Таким чином, нам залишається передбачуване значення
0 для
Y1+−1×1X2=0−1×00Y (
medium quality ), що є абсолютно правильним. Я залишу це вам, щоб опрацювати інші можливості (це завжди працює, у вашому випадку).
То що ж тоді робити? Представляючи категоричну змінну, ми зазвичай використовуємо опорне кодування клітинки (часто її називають "фіктивним кодуванням"). Для цього ми вибираємо один рівень нашої категоріальної змінної як еталонний рівень; цей рівень не отримує власного макетного коду, а просто вказується, маючи всі в кодах манекена для всіх інших рівнів. Інші рівні вашої категоричної змінної представлені фіктивними кодами так само, як ви це зробили. (Для отримання додаткової інформації про це, ви можете побачити мою відповідь тут: Регресія, заснована, наприклад, на дні тижня .) Якщо ви використовуєте , ви можете використовувати та0RfactorR , зробить це все за вас - це буде зроблено правильно, і це набагато зручніше - тим не менш, варто розуміти, що це те, що відбувається «за кадром».