Я шукаю підказки про те, як вилікувати список зупинок. Хтось знає / чи може хтось порекомендувати хороший метод вилучення списків зупинок із самого набору даних для попередньої обробки та фільтрації?
Дані:
величезна кількість введення людського тексту різної довжини (пошукові терміни та цілі речення (до 200 символів)) протягом кількох років. Текст містить багато спаму (наприклад, машинне введення з ботів, окремі слова, дурні пошуки, пошук продуктів ...), і лише кілька% здається корисними. Я зрозумів, що іноді (тільки дуже рідко) люди шукають мою сторону, задаючи дійсно круті запитання. Ці питання настільки круті, що, на мою думку, варто заглибитись у них, щоб побачити, як люди шукають у часі та які теми люди зацікавили, використовуючи мій веб-сайт.
Моя проблема:
полягає в тому, що я дійсно борюся з попередньою обробкою (тобто скиданням спаму). Я вже спробував список списку стоп-файлів з Інтернету (NLTK тощо), але це не дуже допомагає моїм потребам щодо цього набору даних.
Дякуємо за Ваші ідеї та обговорення!
stop words
. Стоп-wrods список найбільш поширених слів в якому - небудь мові, наприклад I
, the
, a
і так далі. Ви просто вилучите ці слова зі свого тексту перед тим, як почати тренувати свій алгоритм, який намагатиметься визначити, який текст є спамом чи ні. Це не допомогло вам визначити, який текст є спамом чи ні, він може покращити ваш алгоритм навчання.