Простіше кажучи, тому що один рівень вашої категоричної ознаки (тут розташування) стає референтною групою під час фіктивного кодування для регресії і є зайвим. Я цитую тут форму "Категорична змінна категорій K або рівнів, як правило, вводить регресію у вигляді послідовності фіктивних змінних K-1. Це становить лінійну гіпотезу про рівень рівня".
Про це вже йшлося в цій дуже приємній відповіді stats.stackexchange .
Мені сказали, що в Курсері є розширений курс Яндекса, який детальніше висвітлює цю тему, якщо у вас все ще виникають сумніви, дивіться тут . Зауважте, що ви завжди можете безкоштовно перевірити вміст курсу. ;-)
Ще один приємний пост, якщо ви хочете ґрунтовне пояснення з великою кількістю прикладів зі статистичною перспективою і не обмежуючись лише фіктивним кодуванням, дивіться це в UCLA (в R)
Зауважте, що якщо ви використовуєте pandas.get_dummies
, є параметр, тобто drop_first
, чи потрібно виводити манекени k-1 з k категоріального рівня, видаляючи перший рівень. Зверніть увагу default = False
, це означає, що посилання не випадає, а k манекени створені з k категоріального рівня!