Я думаю, що перший крок - це перевірити, чи справді проведені тренування та результати тесту є правильними.
- Чи відбувається розщеплення під час 5-кратної перехресної перевірки таким чином, що дає статистично незалежні комплекти поїздів / тестів для відеоспостереження? Наприклад, якщо в даних є повторні вимірювання, чи завжди вони закінчуються в одному наборі?
- Точність 95,83% у 5-кратному рейтингу з 150 зразків відповідає 5 неправильним зі 130 навчальних зразків для 5 сурогатних моделей, або 25 неправильних випадків для 5 * 130 навчальних зразків.
98,21% точність тесту важче пояснити: під час одного запуску відеореєстратора кожен випадок повинен бути перевірений один раз. Таким чином, можливі цифри, про які повідомляється, мають бути кроками 100% / 150. 98,21% відповідає 2,68 неправильних випадків (2 та 3 неправильних із 150 тестових випадків дає 98,67 та 98,00% точності відповідно).
Якщо ви можете витягти свою модель, обчисліть повідомлені точності зовні.
- Які точні відомості про випадкові дані?
- Зробіть зовнішню перехресну перевірку: розділіть свої дані та передайте програмі лише навчальну частину. Прогнозуйте "зовнішні" дані випробувань та обчисліть точність. Це відповідає результатам програми?
- Переконайтеся, що повідомлена "тестова точність" походить від незалежних даних (подвійне / вкладене перехресне підтвердження): якщо ваша програма робить оптимізацію, керовану даними (наприклад, вибираючи "найкращі" функції, порівнюючи багато моделей), це більше схоже на помилку тренувань (доброта придатності), ніж як помилка узагальнення.
Я погоджуюся з @mbq, що помилка навчання навряд чи корисна в машинному навчанні. Але ви можете опинитися в одній з небагатьох ситуацій, коли це насправді корисно: Якщо програма вибирає "найкращу" модель, порівнюючи точність, але має лише вибір помилок у навчанні, вам потрібно перевірити, чи дійсно помилка тренувань дозволяє зрозуміти вибір.
@mbq окреслив найкращий сценарій для нерозрізних моделей. Однак трапляються і гірші сценарії: як і тестова точність, точність тренувань також підлягає відхиленню, але має оптимістичний ухил порівняно з точністю узагальнення, яка зазвичай представляє інтерес. Це може призвести до ситуації, коли моделі не можна розрізнити, хоча вони справді мають різну продуктивність. Але їх точність (або внутрішня репутація) занадто близька, щоб їх відрізняти через їх оптимістичну упередженість. Наприклад, ітеративні методи вибору ознак можуть бути предметом таких проблем, які можуть зберігатися навіть при внутрішній точності перехресної перевірки (залежно від того, як реалізується ця перехресна перевірка).
Тож якщо таке питання може виникнути, я думаю, що це гарна ідея перевірити, чи може бути розумний вибір результатом точності, яку програма використовує для прийняття рішення. Це означало б перевірку того, що внутрішня точність відеоспостереження (яка нібито використовується для вибору найкращої моделі) не є чи не надто оптимістично упередженою щодо зовнішнього відеореєстратора зі статистично незалежним розщепленням. Знову ж таки, синтетичні та / або випадкові дані можуть допомогти з'ясувати, що насправді робить програма.
Другий крок - це зрозуміти, чи є помітні відмінності для статистично незалежних розщеплень, як уже вказував @mbq.
Я пропоную вам порахувати, яку різницю в точності вам потрібно дотримуватись із заданим розміром вибірки, щоб мати статистично значущу різницю. Якщо ваші спостережувані зміни менше, ви не можете визначити, який алгоритм кращий для даного набору даних: подальша оптимізація не має сенсу.