Я розумію, що при машинному навчанні це може бути проблемою, якщо ваш набір даних має дуже корельовані функції, оскільки вони ефективно кодують ту саму інформацію.
Нещодавно хтось зазначав, що коли ви робите одноразове кодування за категоріальною змінною, ви отримуєте корельовані функції, тому вам слід відкинути один із них як "посилання".
Наприклад, кодування статі як двох змінних is_male
і is_female
виробляє дві особливості, які ідеально негативно співвідносяться, тому вони запропонували просто використовувати одну з них, ефективно встановивши базову лінію, щоб сказати чоловіки, а потім побачити, чи важливий стовпчик is_fena в алгоритмі прогнозування .
Це мало сенс для мене, але я не знайшов нічого в Інтернеті, щоб припустити, що це може бути так, так це неправильно чи я щось пропускаю?
Можливий (без відповіді) дублікат: Чи має значення колінеарність одних гарячих кодованих функцій для SVM та LogReg?
Does keeping all k values theoretically make them weaker features
. Ні (хоча я не на 100% впевнений, що ви маєте на увазі під "слабкішими"). using something like PCA
Зауважте, про всяк випадок, що PCA на наборі манекенів, що представляють одну і ту ж категоричну змінну, має мало практичного значення, оскільки кореляції всередині набору манекенів відображають лише співвідношення між частотними категоріями (тому, якщо всі частоти рівні, всі кореляції рівні до 1 / (k-1)).
is_male
змінну на відміну від обох варіантів? Можливо, це не має сенсу в цьому контексті, і це може бути проблемою лише тоді, коли у вас є дві різні змінні, що фактично кодують одну і ту ж інформацію (наприклад, висота в дюймах і висота в см).
you end up with correlated features, so you should drop one of them as a "reference"
Манекенні змінні або індикаторні змінні (це два назви, що використовуються в статистиці, синонімічні до "гарячого кодування" в машинному навчанні), так чи інакше, співвідносяться попарно, будь то k або k-1 змінні. Отже, краще слово "статистично / інформаційно надлишкове", а не "співвідносне".