Чи слід масштабувати один гарячий вектор числовими атрибутами


20

У випадку поєднання категоричних та числових атрибутів я зазвичай перетворюю категоричні атрибути в один гарячий вектор. Моє запитання: чи залишаю я ці вектори такими, які є, і масштабувати числові атрибути шляхом стандартизації / нормалізації, або я повинен масштабувати один гарячий вектор разом із числовими атрибутами?

Відповіді:


11

Після перетворення в числову форму моделі не реагують інакше на стовпчики з кодом гарячого кодування, ніж на будь-які інші числові дані. Отже, існує чіткий прецедент для нормалізації значень {0,1}, якщо ви робите це з будь-якої причини для підготовки інших стовпців.

Ефект від цього буде залежати від модельного класу та типу нормалізації, яку ви застосовуєте, але я помітив деякі (невеликі) поліпшення, коли масштабування означатиме 0, std 1 для однокольорових кодованих категоричних даних при навчанні нейронних мереж.

Це може змінитись і для модельних класів на основі показників відстані.

На жаль, як і більшість подібних варіантів вибору, часто доводиться випробовувати обидва підходи та приймати той, з найкращим показником.


1
Формулювання було трохи незрозумілим. Ви кажете, що нормалізуєте стовпчики, що кодуються гарячими, лише тоді, коли ви нормалізували будь-які стовпці, які не є іншими?
Info5ek

@ Info5ek: Я кажу, що, можливо, буде краще нормалізувати стовпчики, що кодуються гарячими, і якщо ви вже робите це для інших стовпців, то можете також спробувати. Немає фіксованих правил до цього, занадто багато залежить від проблеми.
Ніл Слейтер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.