Я знаю, що для отримання продуктивності класифікатора я повинен розділити дані на навчальний / тестовий набір. Але читаючи це :
Оцінюючи різні параметри ("гіперпараметри") для оцінювачів, таких як настройка C, яку необхідно встановити вручну для SVM, все ще існує ризик перевиконання тестового набору, оскільки параметри можна налаштувати до тих пір, поки оцінювач не працює оптимально. Таким чином, знання про тестовий набір можуть "просочитися" в модель, а показники оцінювання більше не повідомляють про ефективність узагальнення. Щоб вирішити цю проблему, ще одна частина набору даних може бути представлена як так званий "набір перевірки": навчання продовжується на навчальному наборі, після чого проводиться оцінка на наборі перевірки, і коли експеримент здається успішним , остаточне оцінювання можна зробити на тестовому наборі.
Я бачу, що вводиться ще один (третій) валідаційний набір, що виправдано надмірним набором тестового набору під час налаштування гіперпараметрів.
Проблема полягає в тому, що я не можу зрозуміти, як може виглядати цей наряд і тому не можу зрозуміти виправдання третього набору.