Для простоти, скажімо, я працюю на класичному прикладі спам / не-спам-листів.
У мене є набір 20000 електронних листів. З них я знаю, що 2000 - це спам, але я не маю жодного прикладу не-спам-листів. Я хотів би передбачити, чи залишилися 18000 спамом чи ні. В ідеалі результат, який я шукаю, - це ймовірність (або значення p), що електронний лист є спамом.
Який алгоритм (и) можна використовувати, щоб зробити обґрунтований прогноз у цій ситуації?
На даний момент я думаю про метод, заснований на відстані, який би сказав мені, наскільки мій електронний лист схожий на відомий спам-лист. Які у мене варіанти?
Більш загально, чи можу я користуватися контрольованим методом навчання, чи мені обов'язково потрібно мати у своєму навчальному наборі негативні випадки? Чи обмежуюся я підходами навчання без нагляду? А як щодо напівпідконтрольних методів?