Чи є сучасні способи використання джекніфінгу?

Питання: завантажувальний процес перевершує джекніфінг; однак мені цікаво, чи є випадки, коли jackknifing є єдиним або принаймні життєздатним варіантом для визначення невизначеності оцінок параметрів. Крім того, на практичних ситуаціях, наскільки упередженим / неточним є джекніфінг відносно завантажувального завантаження, і чи можуть результати джекніфа забезпечити попереднє розуміння перед тим, як розробити складніший завантажувальний механізм?

Деякий контекст: друг використовує алгоритм машинного навчання в чорному ящику ( MaxEnt ) для класифікації географічних даних, які є "лише присутністю" або "лише позитивом". Загальна оцінка моделі зазвичай проводиться за допомогою перехресної перевірки та кривих ROC. Однак вона використовує вихід моделі для отримання єдиного числового опису виходу моделі і хотіла б довірчого інтервалу навколо цього числа; Джекніфінг представляється розумним способом характеризувати невизначеність навколо цього значення. Запуск завантаження не видається релевантним, оскільки кожна точка даних - це унікальне місце на карті, яке неможливо повторно відібрати на вибір із заміною. Сама програма моделювання могла б в кінцевому рахунку забезпечити те, що їй потрібно; однак мене цікавить взагалі, чи / коли джекніфінг може бути корисним.

— N Brouwer
джерело

Такі програми для картографування - оцінювання дискретних дискретизованих місць - саме ті, де я зазначив широке використання джекніфінгу, з тієї причини, яку ви наводите. Це, наприклад, стандартна процедура, яка проводиться попередньо для проведення крігінгу.

— whuber

У деяких низьких параметрах вибірки, оскільки вибірка завантаження з заміною, вся матриця даних може стати єдиною, тому багато моделей неможливо помістити.

— rep_ho

Якщо ви приймаєте jackknifing не тільки для включення "відключення", але будь-якого виду переустановки без заміни, наприклад, кратних процедур, я вважаю це життєздатним варіантом і регулярно його використовую, наприклад, у Beleites et al. : Раманове спектроскопічне оцінювання тканин астроцитоми: використання м'якої довідкової інформації. Anal Bioanal Chem, 2011, 400, 2801-2816 $k$

див. також: Інтервал довіри для точності перехресної перевірки класифікації

Я уникаю LOO з кількох причин і замість цього використовую ітераційну / повторну схему кратного. У моїй галузі (хімія / спектроскопія / хіміометрія) перехресне підтвердження набагато частіше, ніж перевірка поза завантаженням. Для наших даних / типових застосувань ми виявили, що рази повторював кратну перехресну валідацію та ітерації оцінок продуктивності поза завантажувальною системою мають дуже схожу загальну помилку [Beleites et al. : Зменшення дисперсії в оцінці похибки класифікації за допомогою рідких наборів даних. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] . $k$ $i$ $k$ $i \cdot k$

Особлива перевага, яку я бачу при перегляді ітераційних схем перехресної валідації над завантажувальним механізмом, полягає в тому, що я дуже легко можу отримати стабільність / модель невизначеності моделі, яку можна інтуїтивно пояснити, і вона розділила дві різні причини невизначеності дисперсійності в вимірюванні продуктивності, які більше переплітаються в вимірювання поза завантаженням.
Один рядок міркувань, який змушує мене перехрещувати перевірку / jackknifing, дивиться на надійність моделі: перехресне підтвердження відповідає досить безпосередньо питанням типу "Що відбувається з моєю моделлю, якщо я обмінюю випадки на нові випадки?" $x$ $x$ або "Наскільки надійна моя модель проти збурення навчальних даних шляхом обміну випадків?" $x$ Це на зразок застосовано і для завантажувального завантаження, але менш безпосередньо.

Зауважте, що я не намагаюся отримувати довірчі інтервали, тому що мої дані по своїй суті є кластеризованими ( спектрами пацієнтів), тому я вважаю за краще звітувати $n_s$ $n_p \ll n_s$

a (консервативний) біноміальний довірчий інтервал, використовуючи середню спостережувану продуктивність та як розмір вибірки та $n_p$
дисперсія я спостерігаю між ітераціями кросу перевірки. Після складок кожен випадок перевіряється рівно один раз, хоча за різними сурогатними моделями. Таким чином, будь-яка різниця, що спостерігається між запусками повинна бути спричинена нестабільністю моделі. $i$ $k$ $i$

Як правило, тобто, якщо модель добре налаштована, 2. потрібна лише для того, щоб показати, що вона набагато менша, ніж дисперсія в 1., і що модель є досить стійкою. Якщо 2. виявляється незначним, настав час розглянути агреговані моделі: агрегація моделі допомагає лише для дисперсії, викликаної нестабільністю моделі, вона не може зменшити невизначеність дисперсії при вимірюванні продуктивності, що обумовлено обмеженою кількістю тестових випадків .

Зауважте, що для побудови інтервалів довіри продуктивності для таких даних я б, принаймні, врахував, що дисперсія, що спостерігається між пробіжками перехресної валідації, є середньою кількістю моделей цієї нестабільності, тобто я б сказав, дисперсія нестабільності моделі є спостерігається відмінність між кроками перехресної перевірки; плюс відхилення через кінцевий номер регістру - для вимірювання ефективності класифікації (удару / помилки) це двочлен. Для безперервних заходів я б спробував отримати дисперсію від дисперсії циклу перехресної перевірки, та оцінки дисперсії типу нестабільності для моделей, похідних від $i$ $k$ $k \cdot$ $k$ $k$

Перевага перехресним Перевірки тут є те , що ви отримаєте чіткий поділ між невизначеністю , викликаної моделлю нестабільністю і невизначеністю , викликаної кінцевим числом тестів. Відповідним недоліком , звичайно, є те, що якщо ви забудете взяти до уваги кінцеву кількість фактичних справ, ви сильно недооціните справжню невизначеність. Однак це станеться і для завантажувального завантаження (хоча в меншій мірі).

Поки міркування зосереджені на вимірюванні продуктивності для моделі, яку ви отримуєте для даного набору даних. Якщо ви вважаєте , є набір даних для цього додатка і даного зразком розміру, є третій внесок в дисперсію , яка принципово не може бути виміряна з допомогою передискретизации перевірки, дивіться , наприклад , Bengio & Grandvalet: Немає несмещенная оцінка дисперсії по К-Fold Хреста -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). ми також маємо дані, що показують ці три внески у Beleites et al. : Планування розмірів зразків для класифікаційних моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, що те, що відбувається тут, є результатом припущення, що перекомпонування є подібним до розбиття нового нового зразка.

Це важливо для порівняння алгоритмів / стратегій / евристики моделей, а не для побудови конкретної моделі для застосування та перевірки цієї моделі.

— cbeleites незадоволений SX
джерело