Чим відрізняється одне гаряче кодування від одного кодування?


13

Я читаю презентацію, і вона рекомендує не використовувати кодування не залишати, але це добре з одним гарячим кодуванням. Я думав, що вони обоє однакові. Чи може хтось описати, у чому полягають відмінності між ними?


1
Незрозуміло (лише з вашого запитання), що таке взагалі вихідний. Ви повинні відредагувати це, щоб дати вказівник і коротко пояснити своє розуміння обох, і чому ви вважаєте, що вони однакові.
Шон Оуен

Відповіді:


15

Вони, ймовірно, використовують "залишити кодування поза", щоб посилатися на стратегію Оуена Чжана.

Від: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

Кодований стовпець не є звичайною фіксованою змінною, а натомість є середньою реакцією для всіх рядків для цього категоріального рівня, виключаючи сам рядок. Це дає вам перевагу мати одноколонне представлення категорійного, уникаючи витоку прямої відповіді

Ця картина добре виражає ідею. введіть тут опис зображення


Твоє пояснення краще, ніж у восках за посиланням, дякую
Аллан Руїн

Привіт @Dex Groves, так що кодування залишає тест завжди для тесту .5?
користувач7117436

3
Привіт! Як видно із малюнка, цей патикулярний приклад стосується проблеми класифікації. Хтось має досвід кодування LOO в рамках проблеми регресії? Головне питання - як об’єднати цільову змінну. Зараз я роблю експерименти і отримую величезне переповнення середнім (у).
Олексій Трофімов

1
для кластерної (без нагляду) проблеми можна використовувати такий вид кодування?
enneppi

@AlexeyTrofimov - спробуйте агрегацію з меншою дисперсією. Я б почав з різного бінінгу (наприклад, 1K, 2K, 2M, .. для великих значень y int або деякого округлення до десяткового знака для значень y float) => середнього (bin_f (y))
mork
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.