Багато алгоритмів машинного навчання, наприклад нейронні мережі, розраховують мати справу з числами. Отже, коли у вас є категоричні дані, вам потрібно їх перетворити. Під категоричністю я маю на увазі, наприклад:
Марки автомобілів: Audi, BMW, Chevrolet ... Ідентифікатори користувачів: 1, 25, 26, 28 ...
Незважаючи на те, що ідентифікаційні дані користувачів - це цифри, вони є лише мітками, і не означають будь-яких показників безперервності, наприклад, віку або грошової суми.
Отже, базовий підхід, як видається, використовує двійкові вектори для кодування категорій:
Ауді: 1, 0, 0 ... BMW: 0, 1, 0 ... Шевроле: 0, 0, 1 ...
Це нормально, коли мало категорій, але крім цього це виглядає дещо неефективно. Наприклад, коли у вас є 10 000 ідентифікаторів користувачів для кодування, це 10 000 функцій.
Питання в тому, чи є кращий спосіб? Можливо, одна, що передбачає ймовірності?