Чи є випадкові лісові та підсилювальні параметричні чи непараметричні?


13

Читаючи чудове статистичне моделювання: Дві культури (Брейман 2001) , ми зможемо використати всю різницю між традиційними статистичними моделями (наприклад, лінійною регресією) та алгоритмами машинного навчання (наприклад, Baging, Random Forest, Boosted дерева ...).

Брейман критикує моделі даних (параметричні), оскільки вони ґрунтуються на припущенні, що спостереження породжуються відомою формальною моделлю, призначеною статистиком, яка може погано імітувати Природу. З іншого боку, алгоритми ML не передбачають жодної формальної моделі і безпосередньо вивчають зв'язки між вхідними та вихідними змінними з даних.

Я зрозумів, що Bagging / RF та Boosting також є параметричними: наприклад, ntree , mtry в РФ, швидкість навчання , частка мішка , складність дерев у деревах , що підсилюють стохастичний градієнт, - це всі параметри настройки . Ми також сортуємо оцінку цих параметрів з даних, оскільки використовуємо дані для пошуку оптимальних значень цих параметрів.

То яка різниця? Чи є параметричні моделі RF та Boosted Дерева?

Відповіді:


12

У параметричних моделях є параметри (внесення їх) або припущення щодо розподілу даних, тоді як РФ, нейронні мережі або дерева, що підсилюють, мають параметри, пов'язані з самим алгоритмом, але вони не потребують припущень щодо вашого розподілу даних або класифікують ваші дані в теоретичному розподілі . Насправді майже всі алгоритми мають такі параметри, як ітерації або граничні значення, пов'язані з оптимізацією.


5
Отже, підсумовуючи: 1) як ML, так і параметричні моделі налаштовуються / оцінюються на основі даних, АЛЕ 2) в ML, параметри керують тим, як алгоритми вчаться з даних (не роблячи жодних припущень щодо даних, і нижче за течією генерування даних), тоді як параметри параметричних моделей (моделей, які приймаються апріорі) керують механізмом, який, як передбачається, дав дані (з великою кількістю нереальних припущень, які рідко мають місце на практиці). Як ви вважаєте, це адекватний підсумок? Ви хочете щось додати / змінити?
Антуан

4
Я думаю, що пропозиція з статті Бреймана, яка узагальнює все, - це "алгоритмічне моделювання зміщує фокус з моделей даних на властивості алгоритмів".
Антуан

1
Ви можете це узагальнити, але .. не варто недооцінювати параметричні моделі. Існують ситуації, коли вони потрібні та оптимальні для вирішення багатьох проблем. Також їхні припущення не такі нереалістичні. Багато теоретичних розподілів справедливі для пояснення багатьох речей, від нормальних до двочленних до логінормальних, геометричних і т. Д. Йдеться не про те чи інше, а про вибір правильного способу вирішення проблеми.
Д.Кастро

4
Я згоден. Коли основний фізичний процес добре відомий, параметричні моделі підходять. Брейман критикує використання параметричних моделей для виявлення та прогнозування знань, коли основні процеси невідомі
Антуан

1

Я думаю, що критерій параметричного та непараметричного такий: чи зростає кількість параметрів із кількістю навчальних зразків. Для логістичної регресії та svm, вибираючи функції, ви не отримаєте більше параметрів, додаючи більше даних про навчання. Але для РФ і так далі, деталі моделі будуть змінюватися (як і глибина дерева), хоча кількість дерев не змінюється.


але в RF або Boosting, збільшення глибини дерева не додає параметрів. У вас все ще є tree.complexityпараметр, ви просто змінюєте його значення. Крім того, у РФ та збільшення кількості дерев у лісі / послідовність змінюється залежно від розміру вибірки
Антуан

в моїх варіантах, коли глибина дерева змінюється, в дереві є ще кілька розщеплень, тому у вас більше параметрів. Коли кількість дерев змінюється у RF та Boosting у міру зміни даних, але це не відбудеться, коли модель буде лінійною моделлю.
Ю Чжан

1

У статистичному сенсі модель є параметричною, якщо параметри вивчаються або виводяться на основі даних. Дерево в цьому сенсі непараметричне. Звичайно, глибина дерева - це параметр алгоритму, але він по суті не виходить з даних, а є вхідним параметром, який повинен бути наданий користувачем.


Так, скажімо, ви повинні представити OLS та моделі на основі дерева не технічній аудиторії, чи можете ви сказати, що перші параметричні, тоді як другі не параметричні?
Тангуй
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.