Якщо я правильно розумію, у вас є проблема класифікації двох класів, де позитивний клас (збіги) зустрічається рідко. Багато класифікаторів борються з таким класовим дисбалансом, і звичайна практика піддавати вибірку мажоритарному класу з метою отримання кращої ефективності, тому відповідь на перше питання - «так». Однак якщо ви будете занадто сильно піддіапробовано, ви отримаєте класифікатор, який надмірно прогнозує позитивний клас меншості, тож найкраще зробити це вибрати коефіцієнт підбірки для максимальної продуктивності, можливо, мінімізуючи крос помилка перевірки, коли дані випробувань не були відібрані під вибіркою, тому ви отримаєте хороші показники експлуатаційних показників.
Якщо у вас є імовірнісний класифікатор, який дає оцінку ймовірності членства в класі, ви можете піти на кращий результат і обробити результат, щоб компенсувати різницю між частотами класів у навчальному наборі та в роботі. Я підозрюю, що для деяких класифікаторів оптимальним підходом є оптимізація як співвідношення під вибірки, так і виправлення до виходу шляхом оптимізації помилки перехресної перевірки.
Замість під вибірки для деяких класифікаторів (наприклад, SVM) можна надати різну вагу позитивним та негативним зразкам. Я віддаю перевагу цьому підвідборі, оскільки це означає, що немає змін в результатах завдяки конкретній використовуваній підпробі. У випадках, коли це неможливо, використовуйте завантажувальний інструмент для створення класифікованого класифікатора, де для кожної ітерації використовується інший підвідбір з мажоритарного класу.
Ще одне, що я хотів би сказати, - це те, що зазвичай, коли є великий класовий дисбаланс, помилкові негативні помилки та помилкові позитивні помилки не є однаково поганими, і це гарна ідея вбудувати це в дизайн класифікатора (що може бути виконано підрозділом -моделювання або зважування моделей, що належать до кожного класу).