Які вільно доступні набори даних я можу використовувати для тренування класифікатора тексту?
Ми намагаємось посилити залучення наших користувачів, рекомендуючи для нього найпов'язаніший вміст, тому ми подумали, що якщо ми класифікуємо наш вміст на основі заздалегідь визначеного пакету слів, ми можемо рекомендувати йому залучати вміст, отримуючи його відгуки про випадкову кількість публікацій, вже класифікованих раніше.
Ми можемо використовувати цю інформацію, щоб рекомендувати для нього імпульси, позначені цими класами. Але ми виявили, що якщо ми використовували заздалегідь заданий мішок слів, не пов’язаний із нашим вмістом, вектор функції буде заповнений нулями, також категорії можуть не відповідати нашому вмісту. тому з цих причин ми спробували інше рішення, яке буде кластеризувати наш вміст, а не класифікувати його.
Дякую :)