Коли ви намагаєтесь пристосувати моделі до великого набору даних, загальною порадою є розподіл даних на три частини: навчальний, валідаційний та тестовий набір даних.
Це пояснюється тим, що моделі зазвичай мають три "рівні" параметрів: перший "параметр" - клас моделі (наприклад, SVM, нейронна мережа, випадковий ліс), другий набір параметрів - параметри "регуляризації" або "гіперпараметри" ( наприклад, коефіцієнт штрафу ласо, вибір ядра, структура нейронної мережі) і третій набір - це те, що зазвичай вважається "параметрами" (наприклад, коефіцієнтами для коваріатів.)
Враховуючи клас моделі та вибір гіперпараметрів, вибираються параметри, вибираючи параметри, що мінімізують помилки на навчальному наборі. Враховуючи клас моделі, можна налаштувати гіперпараметри шляхом мінімізації помилок на наборі перевірки. Один вибирає клас моделі за продуктивністю на тестовому наборі.
Але чому б не більше розділів? Часто можна розділити гіперпараметри на дві групи та використовувати "валідацію 1", щоб підходити до першої та "валідацію 2", щоб відповідати другій. Або можна навіть трактувати розмір розділених даних тренувань / перевірки як гіперпараметр, який слід настроїти.
Це вже є звичайною практикою в деяких додатках? Чи є якась теоретична робота щодо оптимального розподілу даних?