k-кратна перехресна перевірка ансамблевого навчання

Мене бентежить питання про розподіл даних для k-кратної перехресної перевірки ансамблевого навчання.

Якщо припустити, що я маю ансамблеву базу для класифікації. Мій перший шар містить класифікаційні моделі, наприклад svm, дерева рішень.

Мій другий шар містить модель голосування, яка поєднує прогнози з першого шару і дає остаточний прогноз.

Якщо ми використовуємо 5-кратну перехресну валідацію, я думаю про використання 5-ти складок наступним чином:

3 складки для тренувань першого шару
1 складка для тренування другого шару
1 раз для тестування

Це правильний шлях? Чи повинні бути дані тренінгу для першого та другого рівня незалежними? Я думаю, що вони повинні бути незалежними, щоб ансамблеві рамки навчання були міцними.

Мій друг пропонує, щоб дані тренувань для першого та другого шару повинні бути однаковими, тобто

4 складки для тренувань першого і другого шару
1 раз для тестування

Таким чином, ми матимемо більш точну помилку в рамках ансамблевого навчання, і ітеративна настройка рамки буде більш точною, оскільки вона ґрунтується на єдиних даних про навчання. Крім того, другий рівень може бути упередженим щодо незалежних даних про навчання

Будь-які поради високо цінуються

classification cross-validation ensemble

— Майкл
джерело

Ансамблеве навчання стосується досить багатьох різних методів. Підсилювач і мішок - це, мабуть, два найбільш поширені. Схоже, ви намагаєтеся реалізувати ансамблевий метод навчання, який називається стекинг . Складання полягає в тому, щоб підвищити точність, поєднуючи прогнози з декількох алгоритмів навчання. Існує досить багато способів зробити укладання і не дуже сувора теорія. Це все ж інтуїтивно та популярно.

Врахуйте підхід вашого друга. Ви встановлюєте моделі першого шару на чотири з п'яти складок, а потім встановлюєте модель другого шару (голосування), використовуючи ті ж чотири складки. Проблема полягає в тому, що другий шар надасть перевагу моделі з найменшою помилкою тренувань. Ви використовуєте ті самі дані, щоб підходити до моделей та розробити процедуру агрегації цих моделей. Другий шар повинен поєднувати моделі, використовуючи позапробні прогнози. Ваш метод кращий, але є спосіб зробити ще краще.

Ми продовжимо залишати одну складку для тестування. Візьміть чотири складки та скористайтесь резюме в 4 рази, щоб отримати прогнозовані зразки для кожної вашої моделі першого шару на всі чотири складання. Тобто, залиште одну з чотирьох складок і помістіть моделі на інші три, а потім передбачіть дані, що тримаються. Повторіть для всіх чотирьох складок, щоб ви отримали позабіржові передбачення на всі чотири рази. Потім підготуйте модель другого шару до цих позапробних прогнозів. Потім знову помістіть моделі першого шару на всі чотири складки. Тепер ви можете перейти до п’ятої частини, яку ви ще не торкалися. Використовуйте моделі першого шару, розміщені на всіх чотирьох складках, а також модель другого шару, щоб оцінити похибку даних, що утримуються. Ви можете повторити цей процес ще раз з іншими складками, витягнутими з монтажу першого та другого шарів.

Якщо вас влаштовує продуктивність, тоді генеруйте вибіркові прогнози для моделей першого шару на всіх п'яти складках, а потім підходите до моделі другого шару. Тоді останній раз розмістіть моделі першого шару на всіх своїх даних і використовуйте їх для моделі другого шару для будь-яких нових даних!

Нарешті, кілька загальних порад. Ви отримаєте більше користі, якщо ваші моделі першого шару досить відрізняються одна від одної. Ви знаходитесь на правильному шляху тут, використовуючи SVM та дерева рішень, які сильно відрізняються один від одного. Оскільки в моделі другого шару є ефект усереднення, ви можете спробувати поступово налагодити свої моделі першого шару, особливо якщо їх багато. Другий шар, як правило, щось просте, а такі обмеження, як негативність ваг і монотонність, є загальними. Нарешті, пам’ятайте, що укладання залежить від перехресної перевірки, яка є лише оцінкою справжнього ризику. Якщо ви отримуєте дуже різні коефіцієнти помилок і дуже різну вагу моделі в різні складки, це означає, що ваша оцінка ризику на основі резюме має велику дисперсію. У цьому випадку ви можете розглянути просту сумішваших моделей першого шару. Або ви можете піти на компроміс, укладаючи обмеження щодо максимальної / хв ваги, розміщеної на кожній моделі першого шару.

— MichaelJ
джерело

Дякую за дуже корисні пропозиції. Я не розумію вашого четвертого абзацу. Мені здається, вона знову перекваліфікується? Я думав, що ваш третій абзац підсумував запропонований вами метод?

— Майкл

Як звичайно з перехресною валідацією, як тільки ми задоволені моделлю, ми повторно тренуємось, використовуючи всі дані. Моделі, описані в абзаці третьому, не вписуються в дані, що простягаються. Проведення даних - це інструмент для орієнтації на оцінку та вибір моделі. Ви завжди повинні підходити до кінцевої моделі за всіма даними.

— MichaelJ

Мені здається, що такий підхід схожий на неймовірну нейронну мережу

— Майкл

Чудове пояснення. Єдине, чого бракує, це діаграма;)

— Джош