Чи може хто-небудь дати перелік того, які алгоритми вимагатимуть, щоб категоричні функції були кодировані гарячими, а які - ні?
AFAIU, він повинен більше робити з конкретними даними , менше з конкретним алгоритмом . Зокрема, це залежить від того, є якийсь змістовний порядок у категоріях чи ні.
Розглянемо два випадки. У першому у вас є категорії погано, мех, добре , а в другому у вас яблуко, апельсин, груша . У першому випадку існує природний порядок, тому що мех , мабуть, знаходиться між поганим і хорошим , але, мабуть, нічого подібного не відбувається в яблуці, апельсині, груші .
Якщо уникнути гарячого кодування для першого випадку, ви "втрачаєте" інформацію про замовлення. Якщо ви використовуєте гаряче кодування для другого випадку, ви присвоюєте певне замовлення категоріям, що, природно, не відповідає дійсності.
Я це роблю, коли алгоритм використовує метрику відстані для обчислення подібності.
Чому? Припустимо, одна з особливостей - категорична погана, мех, добра , і у вас є три екземпляри, 1, 2 і 3, де вони однакові, за винятком того, що 1 є поганим , 2 - мех і 3 - хорошим. Ймовірно, ви хочете висловити алгоритму, що 1 схожий на 2, ніж на 3.