Я працюю над сильно незбалансованими даними. У літературі використовується декілька методів, щоб збалансувати дані за допомогою повторного відбору вибірок (над- чи недостатня вибірка). Два хороших підходи:
SMOTE: Техніка надмірного відбору синтетичних меншин ( SMOTE )
ADASYN: Адаптивний синтетичний підбір проб для збалансованого навчання ( ADASYN )
Я реалізував ADASYN, оскільки його адаптивний характер і легкість поширюється на багатокласні проблеми.
Моє запитання полягає в тому, як протестувати зразки даних, отриманих за допомогою ADASYN (або будь-якими іншими методами перевибірки). Згаданих двох робіт незрозуміло, як вони виконували свої експерименти. Є два сценарії:
1- Проведіть вибірку всього набору даних, а потім розділіть їх на навчальні та тестові набори (або перехресну перевірку).
2- Після розбиття вихідного набору даних виконайте наддискретизацію лише на навчальному наборі та протестуйте на вихідному тестовому наборі даних (можна виконати з перехресною валідацією).
У першому випадку результати набагато кращі, ніж без перенапруження, але я стурбований, якщо є надмірне розміщення. У другому випадку результати дещо кращі, ніж без перебігу, і значно гірші, ніж у першому. Але питання, що стосується другого випадку, полягає в тому, що якщо всі зразки класів меншості пройдуть набір для тестування, то користь від перевибору не буде досягнута.
Я не впевнений, чи є якісь інші налаштування для перевірки таких даних.