За рахунок надмірної спрощеності, приховані ознаки є «прихованими» ознаками, щоб відрізнити їх від спостережуваних ознак. Латентні ознаки обчислюються із спостережуваних ознак з використанням матричної факторизації. Прикладом може бути аналіз текстових документів. "слова", витягнуті з документів, є ознаками. Якщо розділити дані слів, ви можете знайти "теми", де "тема" - це група слів із семантичною значимістю. Матрична факторизація низького рангу відображає кілька рядків (спостережувані ознаки) на менший набір рядків (приховані ознаки). Для того, щоб уточнити, у документі можна було спостерігати такі особливості (слова), як [вітрильник, шхуна, яхт, пароплав, крейсер], який би “факторизував” латентні ознаки (теми), такі як “корабель” та “човен”.
[вітрильник, шхуна, яхт, пароплав, крейсер, ...] -> [корабель, човен]
Основна ідея полягає в тому, що приховані ознаки є семантично релевантними "сукупностями" спостережуваних ознак. Якщо у вас є широкомасштабні, розмірні та галасливі спостережувані функції, має сенс будувати свій класифікатор на латентних ознаках.
Звичайно, це спрощений опис для з'ясування концепції. Ви можете ознайомитись з деталями моделей Latent Dirichlet Allocation (LDA) або ймовірнісних моделей латентного семантичного аналізу (pLSA) для точного опису.