Читаючи чудове статистичне моделювання: Дві культури (Брейман 2001) , ми зможемо використати всю різницю між традиційними статистичними моделями (наприклад, лінійною регресією) та алгоритмами машинного навчання (наприклад, Baging, Random Forest, Boosted дерева ...).
Брейман критикує моделі даних (параметричні), оскільки вони ґрунтуються на припущенні, що спостереження породжуються відомою формальною моделлю, призначеною статистиком, яка може погано імітувати Природу. З іншого боку, алгоритми ML не передбачають жодної формальної моделі і безпосередньо вивчають зв'язки між вхідними та вихідними змінними з даних.
Я зрозумів, що Bagging / RF та Boosting також є параметричними: наприклад, ntree , mtry в РФ, швидкість навчання , частка мішка , складність дерев у деревах , що підсилюють стохастичний градієнт, - це всі параметри настройки . Ми також сортуємо оцінку цих параметрів з даних, оскільки використовуємо дані для пошуку оптимальних значень цих параметрів.
То яка різниця? Чи є параметричні моделі RF та Boosted Дерева?