Значення прихованих ознак?


15

Я намагаюся зрозуміти моделі матричної факторизації для систем рекомендування, і я завжди читаю "приховані функції", але що це означає? Я знаю, що означає функція для навчального набору даних, але я не в змозі зрозуміти ідею прихованих особливостей. Кожен стаття на тему, яку я можу знайти, є занадто дрібною.

Редагувати:

якщо ви принаймні можете вказати мені на деякі документи, що пояснюють ідею.


Ось простий приклад, який може допомогти вам quuxlabs.com/blog/2010/09/…
Akavall

Відповіді:


9

Латентні засоби, які безпосередньо не помітні. Загальне використання терміна в PCA та Factor Analysis полягає в зменшенні розмірності великої кількості безпосередньо спостережуваних ознак на менший набір непрямо спостережуваних ознак.


тож зменшені розміри є прихованими ознаками? У випадку PCA, власні вектори матриці коваріації, тобто основні компоненти, правда?
Джек Твен

Правильний @AlexTwain
samthebest

Чи можете ви надати мені підручник / папір, який згадує про це? Я не в змозі знайти жодного систематичного підручника / статті!
Джек Твен

Ну, а сторінка wiki - це дуже добре, ви можете слідкувати за посиланнями там, якщо ви дійсно хочете en.wikipedia.org/wiki/Latent_variable
samthebest

1
@JackTwain правильна аналогія PCA полягає в тому, що прихованими ознаками є власні вектори. Основні компоненти - ваги, присвоєні кожному спостереженню для основних власних векторів. В інших моделях матричної факторизації латентні особливості відіграють роль власних векторів. Це може здатися педантичним, але помилка не створює кінця плутанині для людей.
вигадки

3

У контексті методу факторизації зазвичай призначаються латентні ознаки для характеристики елементів у кожному вимірі. Поясню на прикладі.

Припустимо , що ми маємо матрицю детал-користувачів взаємодій . Припущення моделі в методах матричної факторизації полягає в тому, що кожна клітинка R u i цієї матриці генерується, наприклад, p T u q i - крапковим продуктом між прихованим вектором p u , що описує користувача u та латентний вектор q i , описуючи пункт i . Інтуїтивно цей продукт вимірює, наскільки подібні ці вектори. Під час навчання ви хочете знайти «хороші» вектори, такі, що помилка наближення зведена до мінімуму.RRuipuTqipuuqii

Можна подумати , що ці приховані ознаки мають сенс, тобто, є особливість користувача вектора , як «любить елементи з властивістю X» і відповідною функцією в елементі вектора ц я , як «має властивість X». На жаль, якщо це якимось чином не застосовується, важко знайти приховані функції, що тлумачаться. Таким чином, ви можете думати про приховані функції таким чином, але не використовувати ці функції для міркування даних.puqi


Я читав статті, де приховані функції (скажімо, "користувальницький вектор") використовуються для прогнозування деяких цільових змінних, давайте використаємо стать як приклад. Він "працює" в тому, що таким чином може бути побудована прогностична модель. Моє запитання - в чому різниця між "вектором користувача" і, скажімо, усередненням "векторів елементів" для всіх елементів, які користувач "відвідав"? IOW, чи очікуєте ви, що згадана вище модель прогнозування буде кращою чи гіршою в порівнянні з однією? Дякую (якщо ви коли-небудь це бачите).
thecity2

@ thecity2, ви можете впорядкувати середньостатистичні елементи користувачів, і це може бути корисним, коли ви маєте справу з новичками, для яких у вас немає попередньо обчислених векторів користувачів (хоча для обчислення цього має бути важко виконати кілька ітерацій оптимізації). Існує також проблема із звичайним усередненням: чим більше елементів спожив споживач - тим ближче до нуля їх середній вектор елементів, ймовірно, буде (через типовий регулятор L2 та, можливо, інші неприємні властивості просторових просторів). Нарешті, наявність окремого вектора є більш гнучким: ваша модель може навчитися такому усередненню.
Артем Соболєв

При цьому є спроби використовувати історію користувача для моделювання вектора користувача. Наприклад, дивіться статтю "Створіть власну музичну рекомендацію за моделюванням інтернет-радіо потоків"
Артем Соболєв

0

Я б сказав, що фактори є більш репрезентативними, ніж основні компоненти, щоб отримати уявлення про «затримку» / прихованість змінної. Затримка є однією з причин, за якою вчені з поведінки вимірюють перцептивні конструкції, такі як почуття, смуток через багато предметів / заходів і отримують число для таких прихованих змінних, які неможливо безпосередньо виміряти.


0

Тут ваші дані - це рейтинги, які дають різні користувачі різних фільмів. Як зазначали інші, приховані засоби не піддаються спостереженню безпосередньо.

Для фільму його приховані особливості визначають кількість дії, романсу, сюжетної лінії, відомого актора тощо. Аналогічно, для іншого набору даних, що складається з рукописних цифр, приховані змінні можуть бути кутом ребер, косою тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.