Більші набори валідації дають більш точні оцінки ефективності поза вибіркою. Але, як ви помітили, в якийсь момент ця оцінка може бути настільки точною, наскільки вона вам потрібна, і ви можете зробити приблизні прогнози щодо розміру вибіркової вибірки, який вам потрібен для досягнення цієї точки.
Для простої правильної / неправильної точності класифікації ви можете обчислити стандартну похибку оцінки як (стандартне відхилення змінної Бернуї), деp- ймовірність правильної класифікації, аn- розмір валідаційної сукупності. Звичайно, ви не знаєтеp, але ви можете мати деяке уявлення про його асортимент. Скажімо, ви очікуєте точності між 60-80%, і ви хочете, щоб ваші оцінки мали стандартну помилку менше 0,1%:
√p ( 1 - p ) / n---------√pнp
Скільки має бутиn(розмір валідаційного набору)? Приp=0,6отримуємо:
n> 0,6 - 0,6 2
p ( 1 - p ) / n---------√< 0,001
нр = 0,6
Для
p=0,8отримуємо:
n>0,8-0,82n > 0,6 - 0,620,0012= 240 , 000
р = 0,8
Такце говорить намви могли б піти з використанням менш ніж5% від ваших 5 мільйонів вибірок даних для перевірки. Цей відсоток зменшується, якщо ви очікуєте більш високої продуктивності, або, особливо, якщо вас влаштовує нижча стандартна помилка вашої оцінки вибіркових показників, що не є вибіркою (наприклад,
p=0,7і, як наслідок, <1%, вам потрібно лише 2100 зразків перевірки або менше ніж двадцятий відсоток ваших даних).
n > 0,8 - 0,820,0012= 160 , 000
р = 0,7
Ці розрахунки також показують точку, яку зробив Тім у своїй відповіді, що точність ваших оцінок залежить від абсолютного розміру вашої валідаційної групи (тобто від ), а не від її розміру відносно навчального набору.н
(Також я можу додати, що я припускаю представницьку вибірку тут. Якщо ваші дані дуже неоднорідні, можливо, вам знадобиться використовувати більші набори перевірки, щоб переконатися, що дані перевірки включають усі ті самі умови і т. Д., Що і ваші дані поїздів і тестів. )