Чим відрізняється одне гаряче кодування від одного кодування?

Я читаю презентацію, і вона рекомендує не використовувати кодування не залишати, але це добре з одним гарячим кодуванням. Я думав, що вони обоє однакові. Чи може хтось описати, у чому полягають відмінності між ними?

— ікм
джерело

Незрозуміло (лише з вашого запитання), що таке взагалі вихідний. Ви повинні відредагувати це, щоб дати вказівник і коротко пояснити своє розуміння обох, і чому ви вважаєте, що вони однакові.

— Шон Оуен

залиште один, з scikit дізнайтеся, що надає категоричний проект

— mork

Вони, ймовірно, використовують "залишити кодування поза", щоб посилатися на стратегію Оуена Чжана.

Від: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

Кодований стовпець не є звичайною фіксованою змінною, а натомість є середньою реакцією для всіх рядків для цього категоріального рівня, виключаючи сам рядок. Це дає вам перевагу мати одноколонне представлення категорійного, уникаючи витоку прямої відповіді

Ця картина добре виражає ідею.

— Dex Groves
джерело

Твоє пояснення краще, ніж у восках за посиланням, дякую

— Аллан Руїн

Привіт @Dex Groves, так що кодування залишає тест завжди для тесту .5?

— користувач7117436

Привіт! Як видно із малюнка, цей патикулярний приклад стосується проблеми класифікації. Хтось має досвід кодування LOO в рамках проблеми регресії? Головне питання - як об’єднати цільову змінну. Зараз я роблю експерименти і отримую величезне переповнення середнім (у).

— Олексій Трофімов

для кластерної (без нагляду) проблеми можна використовувати такий вид кодування?

— enneppi

@AlexeyTrofimov - спробуйте агрегацію з меншою дисперсією. Я б почав з різного бінінгу (наприклад, 1K, 2K, 2M, .. для великих значень y int або деякого округлення до десяткового знака для значень y float) => середнього (bin_f (y))

— mork