Джекніф проти LOOCV


15

Чи дійсно є якась різниця між джек-ножем і залишити один позаперевірну перевірку? Процедура здається ідентичною, я щось пропускаю?

Відповіді:


11

У перехресній валідації ви обчислюєте статистику на вибірці, що залишилась. Найчастіше ви прогнозуєте залишені вибірки (зразки) за моделлю, побудованої на збережених зразках. У jackknifing ви обчислюєте статистику лише з збережених зразків.


4
Я не розумію, як ця відповідь розмовляє з LOOCV в оригінальному запитанні. У якому сенсі можна "обчислити статистику" на одному лівому спостереженні?
Олексій

12

Jackknife часто посилається на 2 пов'язані, але різні процеси, обидва з яких покладаються на підхід «відхід один» - що призводить до цієї суттєвої плутанини.

В одному контексті джекніф може бути використаний для оцінки параметрів популяції та їхніх стандартних помилок. Наприклад, використати підхід джекніфа для оцінки нахилу та перехоплення простої регресійної моделі:

  1. Оцініть нахил та перехват, використовуючи всі наявні дані.
  2. Залиште 1 спостереження та оцініть нахил та перехоплення (також відомий як "часткова оцінка" коефіцієнтів).
  3. Обчисліть різницю між "частковою оцінкою" та оцінкою "всі дані" схилу та перехоплення (також відомі як "псевдо значення" коефіцієнтів).
  4. Повторіть кроки 2 і 3 для всього набору даних.
  5. Обчисліть середнє значення псевдо для кожного коефіцієнта - це оцінки джекніфа нахилу та перехоплення

Значення псевдо і оцінки коефіцієнтів джекніфа також можуть бути використані для визначення стандартних помилок і, отже, довірчих інтервалів. Зазвичай такий підхід дає ширші довірчі інтервали для коефіцієнтів, оскільки це краща, більш консервативна міра невизначеності. Крім того, цей підхід може бути використаний для отримання оцінок зміщення змішаного ножа для коефіцієнтів.

В іншому контексті джекніф використовується для оцінки продуктивності моделі. У цьому випадку jackknife = перехресне підтвердження залишити-один-аут. Обидва стосуються виходу одного спостереження із набору даних про калібрування, повторної калібрування моделі та передбачення спостереження, яке було залишено. По суті, кожне спостереження прогнозується, використовуючи його "часткові оцінки" прогнозів.

Ось приємна невеличка записка про jackknife, яку я знайшов в Інтернеті: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf


1
Якщо я не помиляюсь (і я цілком можу бути), ваш перший контекст описує перехресну валідацію " відключення" .
Олексій

2
Я просто розділяв ідеї оцінки параметрів, використовуючи LOO, а не оцінюючи значення, яке залишилось (як у LOOCV). Я розглядаю їх як два пов'язані, але трохи різні процеси, але, можливо, обидва можна назвати LOOCV? Я також міг помилитися.
jcmb
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.