У мене є 2 набори даних, один із позитивними примірниками того, що я хотів би виявити, і один з неозначеними екземплярами. Які методи я можу використовувати?
Наприклад, припустимо, що ми хочемо зрозуміти, як виявити спам-електронну пошту на основі кількох структурованих характеристик електронної пошти. У нас є один набір даних 10000 спам-листів і один набір даних 100000 електронних листів, для яких ми не знаємо, чи є вони спамом чи ні.
Як ми можемо вирішити цю проблему (не маркуючи вручну жодного з маркованих даних)?
Що ми можемо зробити, якщо у нас є додаткова інформація про частку спаму в незазначених даних (тобто що робити, якщо ми підрахуємо, що 20-40% від 100000 незазначених електронних листів є спамом)?