Для нашого підсумкового курсового проекту з наукових даних ми запропонували наступне:
Надайте набір даних обзорів Amazon , ми плануємо розробити алгоритм (орієнтований приблизно на персоналізований PageRank), який визначає стратегічну позицію для розміщення реклами на Amazon. Наприклад, на Amazon є мільйони продуктів. І набір даних дає вам уявлення про те, з якими продуктами пов'язані, які продукти були об'єднані, переглянуті тощо. (Ми можемо побудувати графік із цією інформацією також переглянутої, а також придбаної). Він також дає відгуки, пов'язані з кожним продуктом 14 років. Використовуючи всю цю інформацію, ми оцінюємо / класифікуємо продукти на Amazon. Тепер ви постачальник Amazon, який хоче покращити трафік на своїй сторінці продуктів. Наш алгоритм допомагає визначити стратегічні позиції на графіку, де можна розмістити свою рекламу, щоб ви могли отримати максимальний трафік.
Тепер питання нашого професора полягає в тому, як ви затвердите свій алгоритм без реальних користувачів? Ми сказали:
Ми можемо моделювати фіксований набір користувачів. Деякі користувачі переглядають
also_bought
іalso_viewed
посилаються на третій стрибок частіше, ніж на перший чи п'ятий. Там поведінка користувачів зазвичай розподіляється. Деякі інші користувачі навряд чи переходять за межі першого стрибка. Цей набір поведінки користувачів розподілено експоненціально.
Наш професор сказав: - Незалежно від розповсюдження користувачів, користувачі переходять за допомогою посилань на подібні продукти. Ваш алгоритм ранжування також враховує подібність b / w 2 продуктів до ранжирування продуктів. Тож використання цього алгоритму перевірки є своєрідним cheating
. Подумайте про іншу поведінку користувача, щось більш реалістичне та ортогональне для алгоритму.
Будь-які ідеї щодо моделювання поведінки користувачів? Я радий надати більш детальну інформацію про альго.