Чи є сучасні способи використання джекніфінгу?


12

Питання: завантажувальний процес перевершує джекніфінг; однак мені цікаво, чи є випадки, коли jackknifing є єдиним або принаймні життєздатним варіантом для визначення невизначеності оцінок параметрів. Крім того, на практичних ситуаціях, наскільки упередженим / неточним є джекніфінг відносно завантажувального завантаження, і чи можуть результати джекніфа забезпечити попереднє розуміння перед тим, як розробити складніший завантажувальний механізм?

Деякий контекст: друг використовує алгоритм машинного навчання в чорному ящику ( MaxEnt ) для класифікації географічних даних, які є "лише присутністю" або "лише позитивом". Загальна оцінка моделі зазвичай проводиться за допомогою перехресної перевірки та кривих ROC. Однак вона використовує вихід моделі для отримання єдиного числового опису виходу моделі і хотіла б довірчого інтервалу навколо цього числа; Джекніфінг представляється розумним способом характеризувати невизначеність навколо цього значення. Запуск завантаження не видається релевантним, оскільки кожна точка даних - це унікальне місце на карті, яке неможливо повторно відібрати на вибір із заміною. Сама програма моделювання могла б в кінцевому рахунку забезпечити те, що їй потрібно; однак мене цікавить взагалі, чи / коли джекніфінг може бути корисним.


4
Такі програми для картографування - оцінювання дискретних дискретизованих місць - саме ті, де я зазначив широке використання джекніфінгу, з тієї причини, яку ви наводите. Це, наприклад, стандартна процедура, яка проводиться попередньо для проведення крігінгу.
whuber

У деяких низьких параметрах вибірки, оскільки вибірка завантаження з заміною, вся матриця даних може стати єдиною, тому багато моделей неможливо помістити.
rep_ho

Відповіді:


4

Якщо ви приймаєте jackknifing не тільки для включення "відключення", але будь-якого виду переустановки без заміни, наприклад, кратних процедур, я вважаю це життєздатним варіантом і регулярно його використовую, наприклад, у Beleites et al. : Раманове спектроскопічне оцінювання тканин астроцитоми: використання м'якої довідкової інформації. Anal Bioanal Chem, 2011, 400, 2801-2816k

див. також: Інтервал довіри для точності перехресної перевірки класифікації


Я уникаю LOO з кількох причин і замість цього використовую ітераційну / повторну схему кратного. У моїй галузі (хімія / спектроскопія / хіміометрія) перехресне підтвердження набагато частіше, ніж перевірка поза завантаженням. Для наших даних / типових застосувань ми виявили, що рази повторював кратну перехресну валідацію та ітерації оцінок продуктивності поза завантажувальною системою мають дуже схожу загальну помилку [Beleites et al. : Зменшення дисперсії в оцінці похибки класифікації за допомогою рідких наборів даних. Chem.Intell.Lab.Syst., 2005, 79, 91 - 100.] .kikik

Особлива перевага, яку я бачу при перегляді ітераційних схем перехресної валідації над завантажувальним механізмом, полягає в тому, що я дуже легко можу отримати стабільність / модель невизначеності моделі, яку можна інтуїтивно пояснити, і вона розділила дві різні причини невизначеності дисперсійності в вимірюванні продуктивності, які більше переплітаються в вимірювання поза завантаженням.
Один рядок міркувань, який змушує мене перехрещувати перевірку / jackknifing, дивиться на надійність моделі: перехресне підтвердження відповідає досить безпосередньо питанням типу "Що відбувається з моєю моделлю, якщо я обмінюю випадки на нові випадки?" xxабо "Наскільки надійна моя модель проти збурення навчальних даних шляхом обміну випадків?"x Це на зразок застосовано і для завантажувального завантаження, але менш безпосередньо.

Зауважте, що я не намагаюся отримувати довірчі інтервали, тому що мої дані по своїй суті є кластеризованими ( спектрами пацієнтів), тому я вважаю за краще звітуватиnsnpns

  1. a (консервативний) біноміальний довірчий інтервал, використовуючи середню спостережувану продуктивність та як розмір вибірки таnp

  2. дисперсія я спостерігаю між ітераціями кросу перевірки. Після складок кожен випадок перевіряється рівно один раз, хоча за різними сурогатними моделями. Таким чином, будь-яка різниця, що спостерігається між запусками повинна бути спричинена нестабільністю моделі.iki

Як правило, тобто, якщо модель добре налаштована, 2. потрібна лише для того, щоб показати, що вона набагато менша, ніж дисперсія в 1., і що модель є досить стійкою. Якщо 2. виявляється незначним, настав час розглянути агреговані моделі: агрегація моделі допомагає лише для дисперсії, викликаної нестабільністю моделі, вона не може зменшити невизначеність дисперсії при вимірюванні продуктивності, що обумовлено обмеженою кількістю тестових випадків .

Зауважте, що для побудови інтервалів довіри продуктивності для таких даних я б, принаймні, врахував, що дисперсія, що спостерігається між пробіжками перехресної валідації, є середньою кількістю моделей цієї нестабільності, тобто я б сказав, дисперсія нестабільності моделі є спостерігається відмінність між кроками перехресної перевірки; плюс відхилення через кінцевий номер регістру - для вимірювання ефективності класифікації (удару / помилки) це двочлен. Для безперервних заходів я б спробував отримати дисперсію від дисперсії циклу перехресної перевірки, та оцінки дисперсії типу нестабільності для моделей, похідних відikkkk

Перевага перехресним Перевірки тут є те , що ви отримаєте чіткий поділ між невизначеністю , викликаної моделлю нестабільністю і невизначеністю , викликаної кінцевим числом тестів. Відповідним недоліком , звичайно, є те, що якщо ви забудете взяти до уваги кінцеву кількість фактичних справ, ви сильно недооціните справжню невизначеність. Однак це станеться і для завантажувального завантаження (хоча в меншій мірі).


Поки міркування зосереджені на вимірюванні продуктивності для моделі, яку ви отримуєте для даного набору даних. Якщо ви вважаєте , є набір даних для цього додатка і даного зразком розміру, є третій внесок в дисперсію , яка принципово не може бути виміряна з допомогою передискретизации перевірки, дивіться , наприклад , Bengio & Grandvalet: Немає несмещенная оцінка дисперсії по К-Fold Хреста -Validation, Journal of Machine Learning Research, 5, 1089-1105 (2004). ми також маємо дані, що показують ці три внески у Beleites et al. : Планування розмірів зразків для класифікаційних моделей., Anal Chim Acta, 760, 25-33 (2013). DOI: 10.1016 / j.aca.2012.11.007 )
Я думаю, що те, що відбувається тут, є результатом припущення, що перекомпонування є подібним до розбиття нового нового зразка.

Це важливо для порівняння алгоритмів / стратегій / евристики моделей, а не для побудови конкретної моделі для застосування та перевірки цієї моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.