Задайте статистику будь-яке питання, і їх відповідь буде певною формою "це залежить".
Це залежить . Окрім типу моделі (хороший бал!), Кількість навчальних задач та кількість предикторів? Якщо модель призначена для класифікації, великий дисбаланс класу призведе до збільшення кількості повторень. Крім того, якщо я перекомпоную процедуру вибору функції, я б схилявся до більшої кількості повторних проб.
Для будь-якого методу перекомпонування, який використовується в цьому контексті, пам’ятайте, що (на відміну від класичного завантажувального), вам потрібні лише ітерації, щоб отримати «достатньо точну» оцінку середнього рівня розподілу. Це суб'єктивно, але будь-яка відповідь буде.
Дотримуючись класифікації з двома класами на секунду, припустимо, ви очікуєте / сподіваєтесь, що точність моделі буде приблизно 0,80. Оскільки процес перекомпонування є вибіркою оцінки точності (скажімо p
), стандартною помилкою буде те, sqrt[p*(1-p)]/sqrt(B)
де B
є кількість повторних проб . Для B = 10
, стандартна похибка точності становить близько 0,13, а при B = 100
ній - 0,04. Ви можете використовувати цю формулу як приблизний посібник для конкретного випадку.
Також врахуйте, що в цьому прикладі дисперсія точності максимально збільшується, чим ближче ви досягаєте 0,50, тому точна модель повинна потребувати менших тиражів, оскільки стандартна помилка повинна бути нижчою, ніж у слабких учнів.
HTH,
Макс