Навчання ансамблю: Чому ефективна укладання моделей?


11

Останнім часом мене зацікавило складання моделей як форми ансамблевого навчання. Зокрема, я трохи експериментував з деякими наборами даних про іграшки для проблем з регресією. Я в основному реалізував індивідуальні регресори "рівня 0", зберігав прогнози виходу кожного регресора як нову функцію для "метарегресора", який можна взяти за свій внесок, і прилаштував цей метарегресор до цих нових функцій (прогнози від рівня 0 регресорів). Я був надзвичайно здивований, побачивши навіть скромні покращення в порівнянні з окремими регресорами при тестуванні метарегресору на набір валідації.

Отже, ось моє запитання: чому ефективна укладання моделей? Інтуїтивно, я б очікував, що модель, яка робить укладання, працює погано, оскільки, здається, вона має збідніле представлення функцій порівняно з кожною з моделей рівня 0. Тобто, якщо я треную регресори 3 рівня 0 на наборі даних з 20 функціями і використовую прогнози цих регресорів рівня 0 як вхід до мого метарегресору, це означає, що мій метарегресор має лише 3 функції, з яких слід вчитися. Просто здається, що в 20 оригінальних функціях, які регресори рівня 0 мають для тренування, є більше інформації, ніж 3 вихідні функції, які метарегресор використовує для тренування.

Відповіді:


5

Розгляньте складання як експлуатацію центральної граничної теореми.

Центральна межа теореми вільно говорить про те, що зі збільшенням кількості вибірки середнє значення вибірки стане все більш точною оцінкою фактичного розміщення середньої сукупності (якщо припустити, що це статистика, яку ви дивитесь), і дисперсія посилиться .

Якщо у вас є одна модель, і вона дає один прогноз для вашої залежної змінної, це прогнозування, швидше за все, буде високим або низьким до певної міри. Але якщо у вас є 3 або 5 або 10 різних моделей, які дають різні прогнози, для будь-якого даного спостереження високі прогнози деяких моделей, як правило, компенсують низькі похибки від деяких інших моделей, а чистий ефект буде зближенням середнього рівня (або інша комбінація) передбачень щодо "істини". Не в кожному спостереженні, але загалом така тенденція. І так, загалом, ансамбль перевершить найкращу одиночну модель.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.