У мене сильно незбалансований набір даних тесту. Позитивний набір складається з 100 випадків, тоді як негативний - 1500 випадків. Що стосується тренінгу, у мене є більший пул кандидатів: позитивний навчальний набір має 1200 випадків, а негативний навчальний набір - 12000 випадків. Для подібного сценарію у мене є кілька варіантів:
1) Використання зваженого SVM для всього навчального набору (P: 1200, N: 12000)
2) Використовуючи SVM на основі вибіркового навчального набору (P: 1200, N: 1200), 1200 негативних випадків відбираються з 12000 випадків.
Чи є теоретичні вказівки щодо вирішення того, який підхід кращий? Оскільки набір даних тесту є сильно незбалансованим, чи слід використовувати і незбалансований навчальний набір?