Значення прихованих ознак?


24

Я дізнаюся про матричну факторизацію для систем рекомендацій, і я бачу, що термін latent featuresзустрічається занадто часто, але я не в змозі зрозуміти, що це означає. Я знаю, що таке особливість, але я не розумію ідеї прихованих рис. Чи можете ви поясніть це? Або принаймні вказати мені на папір / місце, де я можу прочитати про це?


Латентні змінні дозволяють зробити моделі більш потужними в плані того, що можна моделювати. Дані та алгоритм визначають їх значення. Іншими словами, приховані змінні - це як "крок", який усуває розрив між вашими спостережуваними змінними та бажаним прогнозом. Чим ширший цей «проміжок», тим корисніші приховані змінні.
Владислав Довгалець

Відповіді:


25

За рахунок надмірної спрощеності, приховані ознаки є «прихованими» ознаками, щоб відрізнити їх від спостережуваних ознак. Латентні ознаки обчислюються із спостережуваних ознак з використанням матричної факторизації. Прикладом може бути аналіз текстових документів. "слова", витягнуті з документів, є ознаками. Якщо розділити дані слів, ви можете знайти "теми", де "тема" - це група слів із семантичною значимістю. Матрична факторизація низького рангу відображає кілька рядків (спостережувані ознаки) на менший набір рядків (приховані ознаки). Для того, щоб уточнити, у документі можна було спостерігати такі особливості (слова), як [вітрильник, шхуна, яхт, пароплав, крейсер], який би “факторизував” латентні ознаки (теми), такі як “корабель” та “човен”.

[вітрильник, шхуна, яхт, пароплав, крейсер, ...] -> [корабель, човен]

Основна ідея полягає в тому, що приховані ознаки є семантично релевантними "сукупностями" спостережуваних ознак. Якщо у вас є широкомасштабні, розмірні та галасливі спостережувані функції, має сенс будувати свій класифікатор на латентних ознаках.

Звичайно, це спрощений опис для з'ясування концепції. Ви можете ознайомитись з деталями моделей Latent Dirichlet Allocation (LDA) або ймовірнісних моделей латентного семантичного аналізу (pLSA) для точного опису.


"Латентні особливості обчислюються із спостережуваних ознак з використанням матричної факторизації." Чи потрібна умова для обчислення величини, яка вважається латентною?
flow2k

5

(MxN)MNxij

Тоді ваша матриця може бути «факторизована» шляхом введення K«прихованих факторів», так що замість однієї матриці у вас є два: (MxK)- для користувачів, і (KxN)- для елементів, множення матриць яких створює оригінальну матрицю.

Нарешті, до вашого питання: які латентні особливості в матричній факторизації? Вони є невідомими особливостями ( K) у смаках користувачів та рекомендованих елементах, так що коли ці дві матриці множилися, вони створюють матрицю відомих рекомендацій. Конкретні ваги (уподобання користувача щодо певної функції та кількість ознак у певному елементі) визначаються за допомогою так званих альго «Найменші квадрати», більше про які ви можете прочитати тут


3

Мені здається, що приховані ознаки - це термін, що використовується для опису критеріїв класифікації сутностей за їх структурою, іншими словами, за ознаками (ознаками), які вони містять, замість класів, до яких вони належать. Значення слова "латентний" тут, швидше за все, схоже за його значенням у соціальних науках, де дуже популярний термін латентна змінна ( http://en.wikipedia.org/wiki/Latent_variable ) означає неспостережувану змінну (поняття).

Розділ «Вступ» в наступній статті дає гарне пояснення прихованих особливості сенс і використання в моделюванні соціальних явищ науки: http://papers.nips.cc/paper/3846-nonparametric-latent-feature-models-for- посилання-передбачення.pdf .


Я прочитав вступ у статті, на яку ви посилалися, але не вважав її дуже корисною для розуміння концепції прихованих ознак.
Буде

@ Не соромтеся запропонувати джерела (джерела) з кращим поясненням.
Олександр Блех

1
Мені це дуже подобається: tcts.fpms.ac.be/asr/project/sprach/report97/node162.html
Буде

@ Буду дякую. Я погоджуюся - це досить гарне вступ / пояснення (хоча я впевнений, що там багато інших хороших).
Олександр Блех

1

Ще один приклад, розглянемо випадок, коли користувачі мають матрицю рейтингу фільмів, як налаштування Netflix. Це буде величезна розріджена матриця, яку важко обробити.

Зауважте, що кожен користувач матиме певні уподобання, такі як науково-фантастичні фільми чи романтичні фільми тощо. Отже, замість того, щоб зберігати всі рейтинги фільмів, ми могли б зберігати одну приховану функцію, наприклад, категорію фільму, що належить до різних жанрів, наприклад: sci-fi або романтика, залежно від того, хто кількісно оцінює його смак для кожної категорії. Вони називаються " Латентні особливості" , що фіксує суть його смаку, а не зберігає весь список фільмів.

Звичайно, це буде наближенням, але, з іншого боку, у вас є дуже мало для зберігання.

NNN11NN22N

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.