Запропонувати набори навчальних наборів текстів класифікатора

9

Які вільно доступні набори даних я можу використовувати для тренування класифікатора тексту?

Ми намагаємось посилити залучення наших користувачів, рекомендуючи для нього найпов'язаніший вміст, тому ми подумали, що якщо ми класифікуємо наш вміст на основі заздалегідь визначеного пакету слів, ми можемо рекомендувати йому залучати вміст, отримуючи його відгуки про випадкову кількість публікацій, вже класифікованих раніше.

Ми можемо використовувати цю інформацію, щоб рекомендувати для нього імпульси, позначені цими класами. Але ми виявили, що якщо ми використовували заздалегідь заданий мішок слів, не пов’язаний із нашим вмістом, вектор функції буде заповнений нулями, також категорії можуть не відповідати нашому вмісту. тому з цих причин ми спробували інше рішення, яке буде кластеризувати наш вміст, а не класифікувати його.

Дякую :)

— Абдельмавла
джерело

1

Я думаю, що більше інформації про вашу проблему потрібно, перш ніж хтось може порекомендувати набір даних.

— Ніл Слейтер

3

З якою метою? Фільтрація спаму? Аналіз почуттів? Без чіткої мети дуже важко запропонувати набір даних.

— lsdr

@lsdr Дивлячись на відповіді, здається, що питання не обов’язково потребує більше деталей.

— Амір Алі Акбарі

@AmirAliAkbari Я думаю, що вони прийшли після редагування. Я все-таки відмовився від свого голосування.

— Рубенс

Більш підходящим місцем для цього питання є opendata.stackexchange.com

— sheldonkreger

14

Деякі стандартні набори даних для класифікації тексту - це група 20 News, Reuters (з 8 та 52 класами) та WebKb. Ви можете їх знайти тут .

— Дебасис
джерело

Дякую :), я вже відвідував його раніше, але виявив, що класифікації слабкі, недостатньо абстрактні або це може бути не пов’язано з моїм вмістом

— Abdelmawla

7

Один з найбільш широко використовуваних тестових колекцій для дослідження категоризації тексту (посилання нижче). Я багато разів користувався. Насолоджуйтесь своїм дослідженням :)

http://www.daviddlewis.com/resources/testcollections/reuters21578/ або http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

— Хаммам
джерело

5

Тут є безліч наборів даних, які зробили безкоштовно UC Irvine для гри . Серед цих наборів даних є кілька десятків текстових наборів даних, які можуть допомогти вам, хлопці, зі своїм завданням.

Це набір загальних наборів даних, тому залежно від вашої мети вони не повинні використовуватися як єдині дані для навчання ваших моделей, інакше ваша модель - хоча це може працювати - не дасть якісних результатів.

— lsdr
джерело

1

Окрім наведених вище пропозицій, є надзвичайно корисний pdf - Текстові збірники для порівняння для завдань класифікації та кластеризації, який містить різні набори даних разом із орієнтирами для тестування наших моделей. Сюди входить колекція 20ng, Reuters та багато з вищенаведених наборів даних. Я сподіваюся, що це допомагає!

— Хіма Варша
джерело