Якщо ви приймаєте jackknifing не тільки для включення "відключення", але будь-якого виду переустановки без заміни, наприклад, кратних процедур, я вважаю це життєздатним варіантом і регулярно його використовую, наприклад, у
Beleites et al. : Раманове спектроскопічне оцінювання тканин астроцитоми: використання м'якої довідкової інформації. Anal Bioanal Chem, 2011, 400, 2801-2816k
див. також: Інтервал довіри для точності перехресної перевірки класифікації
Я уникаю LOO з кількох причин і замість цього використовую ітераційну / повторну схему кратного. У моїй галузі (хімія / спектроскопія / хіміометрія) перехресне підтвердження набагато частіше, ніж перевірка поза завантаженням. Для наших даних / типових застосувань ми виявили, що рази повторював кратну перехресну валідацію та ітерації оцінок продуктивності поза завантажувальною системою мають дуже схожу загальну помилку [Beleites et al. : Зменшення дисперсії в оцінці похибки класифікації за допомогою рідких наборів даних. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .kiki⋅k
Особлива перевага, яку я бачу при перегляді ітераційних схем перехресної валідації над завантажувальним механізмом, полягає в тому, що я дуже легко можу отримати стабільність / модель невизначеності моделі, яку можна інтуїтивно пояснити, і вона розділила дві різні причини невизначеності дисперсійності в вимірюванні продуктивності, які більше переплітаються в вимірювання поза завантаженням.
Один рядок міркувань, який змушує мене перехрещувати перевірку / jackknifing, дивиться на надійність моделі: перехресне підтвердження відповідає досить безпосередньо питанням типу "Що відбувається з моєю моделлю, якщо я обмінюю випадки на нові випадки?" xxабо "Наскільки надійна моя модель проти збурення навчальних даних шляхом обміну випадків?"x Це на зразок застосовано і для завантажувального завантаження, але менш безпосередньо.
Зауважте, що я не намагаюся отримувати довірчі інтервали, тому що мої дані по своїй суті є кластеризованими ( спектрами пацієнтів), тому я вважаю за краще звітуватиnsnp≪ns
a (консервативний) біноміальний довірчий інтервал, використовуючи середню спостережувану продуктивність та як розмір вибірки таnp
дисперсія я спостерігаю між ітераціями кросу перевірки. Після складок кожен випадок перевіряється рівно один раз, хоча за різними сурогатними моделями. Таким чином, будь-яка різниця, що спостерігається між запусками повинна бути спричинена нестабільністю моделі.iki
Як правило, тобто, якщо модель добре налаштована, 2. потрібна лише для того, щоб показати, що вона набагато менша, ніж дисперсія в 1., і що модель є досить стійкою. Якщо 2. виявляється незначним, настав час розглянути агреговані моделі: агрегація моделі допомагає лише для дисперсії, викликаної нестабільністю моделі, вона не може зменшити невизначеність дисперсії при вимірюванні продуктивності, що обумовлено обмеженою кількістю тестових випадків .
Зауважте, що для побудови інтервалів довіри продуктивності для таких даних я б, принаймні, врахував, що дисперсія, що спостерігається між пробіжками перехресної валідації, є середньою кількістю моделей цієї нестабільності, тобто я б сказав, дисперсія нестабільності моделі є спостерігається відмінність між кроками перехресної перевірки; плюс відхилення через кінцевий номер регістру - для вимірювання ефективності класифікації (удару / помилки) це двочлен. Для безперервних заходів я б спробував отримати дисперсію від дисперсії циклу перехресної перевірки, та оцінки дисперсії типу нестабільності для моделей, похідних відikk⋅kk
Перевага перехресним Перевірки тут є те , що ви отримаєте чіткий поділ між невизначеністю , викликаної моделлю нестабільністю і невизначеністю , викликаної кінцевим числом тестів. Відповідним недоліком , звичайно, є те, що якщо ви забудете взяти до уваги кінцеву кількість фактичних справ, ви сильно недооціните справжню невизначеність. Однак це станеться і для завантажувального завантаження (хоча в меншій мірі).
Поки міркування зосереджені на вимірюванні продуктивності для моделі, яку ви отримуєте для даного набору даних. Якщо ви вважаєте , є набір даних для цього додатка і даного зразком розміру, є третій внесок в дисперсію , яка принципово не може бути виміряна з допомогою передискретизации перевірки, дивіться , наприклад , Bengio & Grandvalet: Немає несмещенная оцінка дисперсії по К-Fold Хреста -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). ми також маємо дані, що показують ці три внески у Beleites et al. : Планування розмірів зразків для класифікаційних моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, що те, що відбувається тут, є результатом припущення, що перекомпонування є подібним до розбиття нового нового зразка.
Це важливо для порівняння алгоритмів / стратегій / евристики моделей, а не для побудови конкретної моделі для застосування та перевірки цієї моделі.