Висока дисперсія перехресної валідації "відхилення"

Я знов і знов читав, що перехресне підтвердження "Вихід-один-вихід" має велику дисперсію через велике перекриття тренувальних складок. Однак я не розумію, чому це так: чи не повинно виконання крос-валідації бути дуже стабільним (низька дисперсія) саме тому, що навчальні набори майже однакові? Або я взагалі неправильно розумію поняття "дисперсія"?

Я також не повністю розумію, як LOO може бути неупередженим, але мати велику дисперсію? Якщо оцінка LOO дорівнює реальній величині очікуваного оцінювача - як це може мати велику дисперсію?

Примітка. Я знаю, що тут є подібне питання: Чому різниця міжперехідної перехресної перевірки (LOOCV) щодо середньої оцінки помилок висока? Однак особа, яка відповіла, каже в коментарях пізніше, що, незважаючи на заявки, зрозуміла, що його відповідь неправильна.

variance cross-validation bias

— Мопс
джерело

Я ця людина :-), але зауважте, що, по-перше, я вже деякий час тому оновив свою відповідь, щоб усунути плутанину, і, по-друге, ціла нитка закрита як дублікат іншої теми : stats.stackexchange.com/ питань / 61783 . Ви там шукали? Мені здається, ваш Q також є дублікатом цього. Якщо ви не задоволені наданою там відповіддю, спробуйте сформулювати своє питання конкретніше. Зараз я проголосую за закриття, але не соромтесь відредагувати ваш запитання

— амеба каже: Поновити Моніку

Можливий дублікат варіації та упередженості в перехресній валідації: чому резюме, що залишає один, має більшу дисперсію?

— амеба каже: Відновити Моніку

Ну, це просто: нехай справжнє значення параметра буде

. Оцінювач, який дає

є неупередженим і має відносно низьку дисперсію, але оцінка, що дає

, також є неупередженою, але має набагато більшу дисперсію.

0.5

$0.5$

0.49, 0.51, 0.49, 0.51...

$0.49, 0.51, 0.49, 0.51...$

0.1, 0.9, 0.1, 0.9...

$0.1, 0.9, 0.1, 0.9...$

— амеба каже: Відновити Моніку

Щодо першого абзацу: вам потрібно подумати про відмінність у різних реалізаціях усього набору даних . Для даного набору даних LOOCV справді створюватиме дуже схожі моделі для кожного розколу, оскільки навчальні набори перетинаються настільки багато (як ви вже сказали), але всі ці моделі можуть бути далеко від справжньої моделі; в різних наборах даних вони будуть далеко в різних напрямках, отже, велика дисперсія. Ось так я якісно це розумію.

— амеба каже: Відновити Моніку

@amoeba, чому б не перетворити ці коментарі на офіційну відповідь?

— gung - Відновити Моніку

Відповіді:

Це питання, ймовірно, закінчиться як дублікат варіації та упередженості у перехресній валідації: чому резюме, що випускає один, має більшу дисперсію? , але перш ніж це станеться, я думаю, що перетворять свої коментарі у відповідь.

Я також не повністю розумію, як LOO може бути неупередженим, але мати велику дисперсію?

$0.5$ $0.49,0.51,0.49,0.51...$ $0.1,0.9,0.1,0.9...$

Чи не має бути ефективність перехресної перевірки дуже стабільною (низька дисперсія) саме тому, що тренувальний набір майже однаковий?

Вам потрібно подумати про відмінність у різних реалізаціях усього набору даних. Для даного набору даних перехресне підтвердження виходу з одного виходу дійсно створить дуже схожі моделі для кожного розколу, оскільки навчальні набори перетинаються настільки (як ви правильно помітили), але всі ці моделі можуть бути далеко від справжньої моделі; в різних наборах даних вони будуть далеко в різних напрямках, отже, велика дисперсія.

Принаймні так я це розумію. Будь ласка, дивіться пов'язані теми для більшого обговорення, а посилання на статті для ще більше обговорення

— Амеба каже Відновити Моніку
джерело

Отже, наскільки я розумію, низький ухил надається, оскільки навчальний набір дуже великий - майже однаковий з усім набором даних (оскільки для тестування залишився лише один зразок даних). Отже, для одного конкретного набору даних ми можемо очікувати дуже хорошої оцінки. Однак через цю високу кореляцію складок (перехресне оцінювання майже виконується на однакових даних у своїх ітераціях), оцінка також є дуже специфічною для цього конкретного набору даних, що призводить до великої розбіжності між продуктивністю для різних наборів даних від одного і того ж базового розподілу . Правильно?

— Пугл

Я думаю, що це здебільшого правильно, але варто бути обережним, сказавши це for one particular dataset we can expect a very good estimation. Я думаю, що можна інтерпретувати це як сенс, що оцінка якогось конкретного параметру набору даних буде хорошою. Але в цілому крос-валідація повинна оцінювати параметр сукупності : наскільки добре певний тип моделі може робити прогнози щодо залежної змінної у сукупності; і ми не можемо очікувати дуже хорошої оцінки його LOOCV, через те, що ви написали (оцінка є very specific for this particular dataset).

— амеба каже: Поновіть Моніку

Я повинен додати застереження, що все це є моїм сучасним розумінням, але в цілому я вважаю цю тему досить складною і мій досвід перехресної перевірки обмежений. Я не експерт.

— амеба каже: Відновіть Моніку

Чи можу я запитати, чому ви вважаєте це складним? Мені цікаво, оскільки це може навчити мене чомусь бути обережним, коли йдеться про резюме або де поглибити свої знання

— Pugl

З огляду на прийняту відповідь у цій темі , можливо, вам більше не потрібно згадувати велику дисперсію LOOCV у цій відповіді, а саме, отже, велику дисперсію ? Я певний час замислювався над цими питаннями і не міг придумати жодної теоретичної причини для великої дисперсії LOOCV при проблемах безперервної ("безперервної"?) Регресії, хоча бачу думку Павла в коментарях у пов'язаній темі, що LOOCV не вдається. якщо ваш зразок містить дублікати кожної точки.

— Річард Харді

Ця велика дисперсія щодо простору навчальних наборів. Ось чому LOOCV відрізняється великою дисперсією: у LOOCV ми отримуємо помилку передбачення для кожного спостереження, скажімо, спостереження i, використовуючи весь наборі даних, що спостерігаються, за винятком цього спостереження. Отже, передбачуване значення для i дуже залежить від поточного набору даних. Тепер припустимо, що ми спостерігаємо інший незалежний набір даних і підходимо до моделі цього нового набору даних. Якщо ми використовуємо цю нову модель для отримання прогнозованого значення для спостереження i, передбачуване значення потенційно дуже відрізняється від того, яке оцінюється LOOCV (хоча правильне в середньому (неупереджене)).

У цьому полягає інтуїція, що стоїть за великою дисперсією прогнозування помилок у LOOCV.

Однак якщо ви використовуєте LOOCV для порівняння результатів моделі з різними гіперпараметрами, я вважаю, що ви можете сміливо використовувати LOOCV для оцінки помилок прогнозування, якщо справжня цінність помилки прогнозування не представляє ваших інтересів, тобто ви просто хочете порівнюйте різні моделі, що мають спостережений набір тренувань, і вам не байдуча справжня помилка, яку потрібно оцінити.

Однак, як правило, якщо у вас є невеликий зразок, використовуйте LOOCV, інакше використовуйте k-кратну CV з меншим значенням для k.

— Мехді Ростамі
джерело