Я намагаюся класифікувати повідомлення на різні категорії за допомогою SVM. Я склав список бажаних слів / символів із навчального набору.
Для кожного вектора, який представляє повідомлення, я встановлюю відповідний рядок, 1
якщо слово є таким:
"корпус" є: [Мері, маленький, баранина, зірка, мерехтіння]
перше повідомлення: "у Мері було трохи ягняти" -> [1 1 1 0 0]
друге повідомлення: "мерехтить маленька зірка" -> [0 1 0 1 1]
Я думаю, що це досить поширене налаштування з SVM, але моє запитання полягає в тому, що з тисячами слів у наборі, що робити, якщо на повідомлення з’являються лише 1-2 слова на повідомлення? Чи буде лінійна залежність мого набору навчальних векторів негативно впливати на здатність алгоритму конвергуватися?
flexmix
- хоча я вже кілька років маю "Learn R" у своєму календарі!