Коли алгоритми ML, наприклад, Vowpal Wabbit або хтось із механізмів факторизації, що виграють змагання за швидкість натискання ( Kaggle ), згадують, що функції "хешировані", що це насправді означає для моделі? Скажімо, існує змінна, яка представляє ідентифікатор інтернет-добудови, яка приймає такі значення, як "236BG231". Тоді я розумію, що ця функція хеширована до випадкового цілого числа. Але моє питання:
- Чи використовується тепер ціле число в моделі, як ціле число (числове) АБО
- чи хешированное значення насправді все ще трактується як категорична змінна та закодована одним гарячим? Таким чином, хеш-хитрість полягає лише в тому, щоб якось заощадити місце з великими даними?