Останнім часом мене зацікавило складання моделей як форми ансамблевого навчання. Зокрема, я трохи експериментував з деякими наборами даних про іграшки для проблем з регресією. Я в основному реалізував індивідуальні регресори "рівня 0", зберігав прогнози виходу кожного регресора як нову функцію для "метарегресора", який можна взяти за свій внесок, і прилаштував цей метарегресор до цих нових функцій (прогнози від рівня 0 регресорів). Я був надзвичайно здивований, побачивши навіть скромні покращення в порівнянні з окремими регресорами при тестуванні метарегресору на набір валідації.
Отже, ось моє запитання: чому ефективна укладання моделей? Інтуїтивно, я б очікував, що модель, яка робить укладання, працює погано, оскільки, здається, вона має збідніле представлення функцій порівняно з кожною з моделей рівня 0. Тобто, якщо я треную регресори 3 рівня 0 на наборі даних з 20 функціями і використовую прогнози цих регресорів рівня 0 як вхід до мого метарегресору, це означає, що мій метарегресор має лише 3 функції, з яких слід вчитися. Просто здається, що в 20 оригінальних функціях, які регресори рівня 0 мають для тренування, є більше інформації, ніж 3 вихідні функції, які метарегресор використовує для тренування.