Я сподіваюся, що наступні уривки дадуть зрозуміти, про що піде моє питання. Це з http://neuralnetworksanddeeplearning.com/chap3.html
Потім навчання поступово сповільнюється. Нарешті, приблизно в епоху 280 точність класифікації в значній мірі перестає покращуватися. Пізніші епохи просто бачать невеликі стохастичні коливання поблизу значення точності в епоху 280. Порівнюйте це з попереднім графіком, де вартість, пов’язана з навчальними даними, продовжує плавно знижуватися. Якщо ми просто подивимось на цю вартість, виявиться, що наша модель все ще стає «кращою». Але результати точності випробувань показують, що поліпшення є ілюзією. Як і модель, яку Фермі не любив, те, що наша мережа дізнається після епохи 280, вже не узагальнює дані тесту. І тому це не корисне навчання. Ми кажемо, що мережа є надмірною або перетренованою поза епохою 280.
Ми тренуємо нейронну мережу, і вартість (на дані тренінгу) знижується до епохи 400, але точність класифікації стає статичною (забороняючи кілька стохастичних коливань) після епохи 280, тому ми робимо висновок, що модель надмірно підходить для даних про навчання після епохи 280.
Ми можемо бачити, що вартість тестових даних поліпшується приблизно до епохи 15, але після цього вона фактично починає погіршуватися, навіть якщо вартість даних про навчання продовжує покращуватися. Це ще одна ознака того, що наша модель переобладнана. Однак це є головоломкою, а чи варто вважати епоху 15 чи епоху 280 точкою, в якій надмірна підготовка домінує над навчанням? З практичної точки зору, нас дійсно цікавить - це підвищення точності класифікації на тестових даних, тоді як вартість тестових даних не більше ніж проксі для точності класифікації. І тому має найбільш сенс вважати епоху 280 точкою, за якою перевиконання домінує у навчанні в нашій нейронній мережі.
На відміну від точності класифікації тестових даних порівняно з витратами на навчання раніше ми тепер ставимо витрати на тестові дані проти витрат на навчання.
Потім книга продовжує пояснювати, чому 280 - це правильна епоха, з якої почалося надмірне оснащення. З цим я маю проблему. Я не можу обернути голову навколо цього.
Ми просимо модель мінімізувати витрати, і, таким чином, вартість - це показник, який вона використовує як міру власної сили, щоб правильно класифікувати. Якщо ми розглядаємо 280 як правильну епоху, коли розпочався переозброєння, чи не в такий спосіб ми створили упереджену модель, яка хоч і є кращим класифікатором на конкретних тестових даних, але тим не менше приймає рішення з низькою впевненістю і, отже, більш схильна до відхилення з результатів, показаних на даних тесту?