Я маю справу з проблемою класифікації тексту. Веб-сканер сканує веб-сторінки певного домену, і для кожної веб-сторінки я хочу з’ясувати, належить вона лише одному певному класу чи ні. Тобто, якщо я називаю цей клас Позитивним , кожна сканована веб-сторінка належить або до класу Позитивний, або до класу Непозитивний .
У мене вже є великий навчальний набір веб-сторінок для класу Позитивний . Але як створити навчальний набір для класу Непозитивні, який є максимально репрезентативним? Я маю на увазі, я міг би в основному використовувати кожен і все для цього класу. Чи можу я просто зібрати кілька довільних сторінок, які точно не належать до класу Positive ? Я впевнений, що ефективність алгоритму класифікації тексту (я вважаю за краще використовувати алгоритм Naive Bayes) сильно залежить від того, які веб-сторінки я виберу для класу Непозитивний .
То що мені робити? Може хтось, будь ласка, дасть мені пораду? Велике спасибі!