Чому функція bootstrap scikit-learn переутворює тестовий набір?


15

Під час використання завантажувальної програми для оцінки моделі, я завжди вважав, що зразки з мішків безпосередньо використовуються як тестовий набір. Однак, як видається, це не стосується застарілого підходу наукової роботиBootstrap , який, здається, будує тестовий набір із малювання із заміною із підмножини даних із пакета. Які статистичні міркування стоять за цим? Чи існують конкретні сценарії, коли ця методика краще, ніж просто оцінювати за зразком, який випускається з кошика, або навпаки?


перехресне підтвердження? перекомпонування?
EngrStudent

Якщо ви посилаєтесь на тег, його я не додав. Я фактично завантажую як альтернативу резюме.
гіберфіш

Я думаю, ти неправильно розумієш. При перехресній валідації вони збираються повторити процес кілька разів на підмножині даних і роздивляться на варіації результатів або параметрів моделі. У такому випадку зміна параметра сама по собі повідомляє про якість підгонки, а не обов'язково про помилку OOB. Я не знайомий з конкретною бібліотекою, тому я просто залишив коментар з ідеєю.
EngrStudent

Відповіді:


3

Зразки завантажувальної програми використовуються для оцінки продуктивності алгоритму за багатьма ітераціями. При цьому оцінюється продуктивність на випадково змінених наборах.

На відміну, виконуючи, наприклад, 10-кратну перехресну перевірку, ви виконуєте лише 10 ітерацій на різних наборах даних поїздів і тестів.

н=20i=10,000

Посилання, яке ви описуєте, перервано, тому я додав опис функції у поточну (0.14) версію sklearn

Опис методу

Випадкова вибірка із замісним ітератором перехресної перевірки Забезпечує показники поїздів / випробувань для розділення даних у тестових наборах поїздів під час перекомпонування вхідних n_iter разів: кожного разу виконується новий випадковий розбиття даних, а потім відбираються зразки (із заміною) на кожній стороні розколу для складання навчальних і тестових наборів. Примітка: на відміну від інших стратегій перехресної перевірки, завантажувальна програма дозволить деяким зразкам виникати кілька разів у кожному розщепленні. Однак зразок, який виникає при розколенні поїздів, ніколи не відбудеться в тестовому розколі і навпаки. Якщо ви хочете, щоб кожен зразок стався максимум одного разу, ви, ймовірно, замість цього використовуєте перехресну перевірку ShuffleSplit.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.