Цікаво, який тип перехресної перевірки моделі вибрати для проблеми класифікації: K-кратна або випадкова підсемплікація (вибірка завантажувальної програми)?
Моя найкраща здогадка - використовувати 2/3 набору даних (що становить ~ 1000 предметів) для навчання та 1/3 для перевірки.
У цьому випадку K-кратність дає лише три ітерації (складки), що недостатньо, щоб побачити стабільну середню помилку.
З іншого боку, мені не подобається функція випадкового підбірки: те, що деякі елементи ніколи не вибиратимуться для навчання / перевірки, а деякі будуть використовуватися не один раз.
Використовувані алгоритми класифікації: випадкова лісова та логістична регресія.