Як методи ансамблю перевершують усі їх складові?


16

Я трохи розгублений щодо ансамблевого навчання. Коротше кажучи, він запускає k моделі і отримує середнє значення цих моделей k. Як можна гарантувати, що середнє значення k-моделей було б краще, ніж будь-яка з моделей? Я розумію, що упередженість "розширюється" або "усереднюється". Однак що робити, якщо в ансамблі є дві моделі (тобто k = 2), і одна з них гірша за іншу - чи не буде ансамбль гіршим за кращу модель?



ця тема мене цікавить, але викликала більше питань, ніж відповіла. Чи можемо ми всі використати трохи більше щоб більш чітко визначити всі ці слова, які ми використовуємо? LATEX
Тейлор

Відповіді:


23

Це не гарантується. Як ви кажете, ансамбль міг бути гіршим, ніж окремі моделі. Наприклад, якщо взяти середнє значення справжньої моделі і поганої моделі, це дало б досить погану модель.

Середнє значення моделей покращиться лише тоді, коли моделі (дещо) залежать одна від одної. Наприклад, під час упаковки кожна модель будується з випадкового підмножини даних, тому деяка незалежність вбудована. Або моделі можуть бути побудовані за допомогою різних комбінацій функцій, а потім об'єднані шляхом усереднення.к

Також усереднення моделей добре працює лише тоді, коли окремі моделі мають велику дисперсію. Ось чому побудований випадковий ліс із використанням дуже великих дерев. З іншого боку, усереднення купу лінійних регресійних моделей все ще дає лінійну модель, яка, швидше за все, не буде кращою, ніж моделі, з яких ви почали (спробуйте!)

Інші методи ансамблю, такі як прискорення та змішування, працюють, приймаючи результати з окремих моделей разом із навчальними даними як вхід до більшої моделі. У цьому випадку не дивно, що вони часто працюють краще, ніж окремі моделі, оскільки вони насправді складніші, і вони все ще використовують дані тренувань.


Ви не маєте на увазі, що РФ використовує велику кількість дерев для досягнення великої дисперсії? Я б очікував, що в міру зростання дерев вони будуть охоплювати більшість функцій, а різниця між моделями зменшиться.
Ітамар

Ні, @Flounderer правильний. Дерева рішень називаються нестабільними моделями. Якщо трохи змінити дані, ви отримаєте дуже різні дерева. Випадкові ліси - це засоби їх стабілізації. Якщо ви будете тренувати два РЧ із дещо різними зразками даних, вони створюватимуть подібні моделі.
Рікардо Крус

"усереднення групи лінійних регресійних моделей все ще дає лінійну модель" <- що ви маєте на увазі під усередненням тут? Також про яку дисперсію ви говорите?
Тейлор

6

У вашому прикладі ваш ансамбль з двох моделей може бути гіршим, ніж сама модель. Але ваш приклад штучний, ми загалом будуємо більше двох в нашому ансамблі.

Не існує абсолютної гарантії, що модель ансамблю працює краще, ніж окрема модель, але якщо ви будуєте багато з них, і ваш індивідуальний класифікатор слабкий . Ваша загальна продуктивність повинна бути кращою за індивідуальну модель.

У машинному навчанні навчання декількох моделей зазвичай перевершує навчання однієї моделі. Це тому, що у вас є більше параметрів для налаштування.


2

Я просто хочу кинути щось, що рідко обговорюється в цьому контексті, і це повинно дати вам їжу для роздумів.

Ансамбль також працює з людьми!

Було помічено, що усереднення прогнозів людини дає кращі прогнози, ніж будь-які окремі прогнози. Це відомо як мудрість натовпу.

Тепер ви можете стверджувати, що це тому, що деякі люди мають різну інформацію, тому ви ефективно усереднюєте інформацію. Але ні, це справедливо навіть для таких завдань, як відгадування кількості квасолі в банці.

Про це написано безліч книг та експериментів, і це явище все ще спантеличує дослідників.

Це говориться, як зазначав @Flounderer, реальні вигоди отримують від так званих нестабільних моделей, таких як дерева рішень, де кожне спостереження зазвичай впливає на межу прийняття рішення. Більш стабільні, такі як SVM, не отримують стільки, оскільки перекомпонування зазвичай не сильно впливає на вектори підтримки.


1
Ось чому я завжди намагався найняти людей, не таких, як я. Гарна порада для створення гнучких та ефективних команд.
Метью Друрі

0

Насправді цілком можливо, що поодинокі моделі будуть кращими за ансамблі.

Навіть якщо у ваших даних немає пунктів, де деякі ваші моделі завищують, а деякі недооцінюють (у такому випадку ви можете сподіватися, що середня помилка буде заперечена), деякі найпопулярніші функції втрат (наприклад, середня квадратна втрата) накладають штраф поодинокі великі відхилення більше деякої кількості помірних відхилень. Якщо моделі, які ви усереднюєте, дещо відрізняються, ви можете сподіватися, що дисперсія стає "меншою", оскільки середнє вбиває невідповідні відхилення. Ймовірно , це можна пояснити з , що .


0

Так, це може бути так, але ідея для складання полягає в підготовці більш простих моделей, щоб уникнути зайвого розміщення при захопленні різних характеристик даних різних ансамблів. Звичайно, немає гарантії, що модель ансамблю перевершить єдину модель під час навчання з тими ж даними про навчання. Ефективність може бути досягнута шляхом комбінування ансамблевих моделей та підвищення рівня (наприклад, AdaBoost). За допомогою прискорення ви тренуєте кожну наступну модель ансамблю, присвоюючи ваги кожній точці даних та оновлюючи їх відповідно до помилок. Тож подумайте про це як алгоритм спуску координат, він дозволяє помилці навчання знижуватися з кожною ітерацією, зберігаючи постійну середню складність моделі. Загалом це впливає на результативність. Тут багато

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.