Ймовірність, що комусь сподобається образ


11

У мене є така проблема:
- Набір з N людей
- Ми встановили K зображень
- Кожна людина оцінює деяку кількість зображень. Людині зображення може подобатися чи не подобатися (це єдині дві можливості). - Проблема полягає в тому, як обчислити ймовірність того, що якійсь людині подобається певний образ.

Наведу приклад, в якому представляю свою інтуїцію.
N = 4
K = 5
+ означає, що людині подобається зображення
- означає, що людині не подобається зображення
0 означає, що людину не запитували про зображення, і це значення слід передбачити

x 1 2 3 4 5    
1 + - 0 0 +   
2 + - + 0 +  
3 - - + + 0  
4 - 0 - - -

Особі 1, мабуть, сподобається зображення 3, тому що особі 2 є подібні уподобання, а людині 2 подобається зображення 3.
Особі 4, мабуть, не сподобається зображення 2, тому що нікому більше не подобається, а крім того, особі 4 не подобається більшість зображень.

Чи існує якийсь добре відомий метод, який можна використати для обчислення такої ймовірності?


Враховуючи свій обмежений досвід, я не можу дати точної відповіді. Однак я вважаю, що ви можете використовувати дані панелі (тому що ви враховуєте у своєму прикладі варіації як між особами, так і між особами) підхід з logit. Можливо, інші можуть докладно зупинитися на цьому ...
Teucer

Ваш невеликий приклад дуже корисний, але я припускаю, що ваш реальний набір даних більший. На скільки більше, тобто (приблизно) наскільки великі ваші реальні N і k ?
onestop

N і k може бути величезним, але обчислювальна потужність не є проблемою.
Томек Тарчинський

Відповіді:



6

Це виглядає як хороша проблема машинного навчання, тому я зосередитимусь на цій групі методів.

Перша і найбільш очевидна ідея - алгоритм kNN. Там ви спочатку підраховуєте схожість серед глядачів, а потім прогнозуєте пропущені голоси із середнім голосом за цю картину, подану подібними користувачами. Детальніше дивіться у Вікіпедії .

Інша ідея - вирощувати на цих даних непідконтрольний випадковий ліс (у будь-якому випадку, з атрибутами на зображеннях чи людях, що краще) та присвоювати відсутні дані на основі структури лісу; весь метод реалізований і описаний в randomForestпакеті R , шукайте rfImputeфункцію.

Нарешті, ви можете реструктуризувати проблему на просту класифікаційну задачу, скажімо, зробіть об’єкт кожного нуля в матриці та спробуйте придумати деякі розумні дескриптори (наприклад, середній голос глядача, голос середнього зображення, голосування більшості, найбільше друге, .. аналогічний переглядач, такий самий із зображенням, можливо, із зовнішніми даними (середній відтінок зображення, вік виборців тощо), а потім спробуйте різні класифікатори цих даних (SVM, RF, NB, ...).

Є також деякі більш складні можливості; для огляду ви можете знайти рішення для виграшу Netflix (яке було подібною проблемою).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.