Це питання може бути занадто відкритим, щоб отримати остаточну відповідь, але, сподіваємось, ні.
Алгоритми машинного навчання, такі як SVM, GBM, Random Forest тощо, як правило, мають деякі вільні параметри, які, крім деякого правила керівництва, повинні бути налаштовані на кожен набір даних. Як правило, це робиться за допомогою певної техніки повторного відбору проб (завантажувальний, CV та ін.), Щоб відповідати набору параметрів, які дають найкращу помилку узагальнення.
Моє запитання: чи можна зайти сюди занадто далеко? Люди говорять про те, щоб провести пошук сітки так далі, але чому б просто не трактувати це як проблему оптимізації та підкреслити найкращий набір параметрів? Я запитав про якусь механіку цього в цього питання цьому питанні, але він не приділяв великої уваги. Можливо, питання було задано погано, але, можливо, саме питання є поганим підходом, якого люди взагалі не роблять?
Що мене турбує - це відсутність регуляризації. Я можу повторити вибірку, що найкраща кількість дерев для вирощування в ГБМ для цього набору даних - 647 з глибиною взаємодії 4, але наскільки я впевнений, що це буде правдою для нових даних (якщо припустити нову популяцію ідентичний навчальному набору)? Не маючи розумного значення «скорочуватися» до (або, якщо ви не бажаєте, ніякої інформативної попередньої інформації), повторний відбір проб здається найкращим, що ми можемо зробити. Я просто не чую про це жодної розмови, тому змушує задуматися, чи є щось, чого я пропускаю.
Очевидно, що великі обчислювальні витрати пов'язані з тим, щоб зробити багато ітерацій, щоб витіснути з моделі кожен останній шматочок передбачуваної потужності, тому очевидно, що це ви б зробили, якщо у вас є час / рохкання на оптимізацію і кожен шматочок підвищення ефективності роботи є цінним.