Чи валідація витримки є кращим наближенням "отримання нових даних", ніж резюме в k-кратному стані?

Я переосмислював відповідь, яку я дав на питання пару тижнів тому

Перехресне підтвердження витримки виробляє єдиний тестовий набір, який можна повторно використовувати для демонстрації. Ми всі, мабуть, погоджуємось, що це багато в чому негативна особливість, оскільки один витриманий набір може виявитися нерепрезентативним через випадковість. Більше того, ви можете закінчити перевищення тестових даних таким же чином, як і дані про навчання.

Однак мені здається, що статична природа витриманого зразка - це краще наближення до «отримання більшої кількості даних», ніж резюме в k-кратному стані, і уникає питання усереднення по складках. Однак я не можу створити будь-яку статистичну основу для цього почуття. Чи є якась логіка в моїй інтуїції?

Наприклад, те, що я маю на увазі для майбутнього проекту, - це спочатку використовувати перевірку на витримку для складання та тестування моделі, потім як крок перевірки повторно намалював набір декількох разів, щоб показати, що мої оцінки помилки прогнозування ( на тестовому наборі) надійні до помилки вибірки в тестовому наборі. Це погана ідея з якоїсь причини? Це питання було задано раніше, але жодної відповіді не було.

cross-validation

— shadowtalker
джерело

ІМХО однією з найгірших властивостей перевірки витримки є психологічна, а не статистична: я бачу багато затримок, які трактуються так, ніби це незалежний експеримент валідації (незалежність вже на експериментальному рівні), хоча багато хто з Найважливіші проблеми, які я бачу при валідації перекомпонування, можуть і трапляться так само, як і при затримці (будь-яка проблема, що виникає внаслідок неправильного розщеплення).

Крім цього, IMHO - це майже те саме, що перекомпонувати (принаймні, як я це бачив на практиці). Відмінності є

загальна кількість фактично різних перевірених випадків є меншою (і, отже, оцінка є менш визначеною).
Під час витримки продуктивність вимагається для фактично протестованої моделі, а не для фактично неперевіреної моделі, побудованої з відстеження витримки плюс дані про випробування. Переустановка стверджує, що вимірювані показники є хорошим наближенням до ефективності останньої моделі. Але я також бачив, що таким способом використовується підхід утримування ("встановлення перевірки").

Есбенсен та Геладі: Принципи належної перевірки: використання та зловживання повторним відбором проб для перевірки, Journal of Chemometrics, 24 (3-4), 168-187 стверджує, що на практиці обидва не є дуже хорошими наближеннями для наборів даних (валідація експерименти), які дозволяють виміряти дійсно цікаві експлуатаційні характеристики.

ви можете перетворитись на тестові дані так само, як і на навчальні дані.

Так само, як і при будь-якій іншій валідації: якщо ви робите моделювання на основі даних / вибір моделі, потрібен інший незалежний рівень перевірки. Я не бачу тут різниці між схемами відключення та перекомпонування.

спершу використовуючи валідацію затримки для складання та тестування моделі, потім як крок перевірки повторно намалював набір декількох разів, щоб показати, що мої оцінки помилки передбачення (на тестовому наборі) є надійними для помилки вибірки в тесті набір. Це погана ідея з якоїсь причини?

Я думаю, що так: так, IMHO слід використовувати вкладений настрій
(якщо ви не хочете припустити, що перевірка затримки може бути і повинна бути повторена також. Це вірний підхід, який відрізняється від ітераційного / повторного перевірки набору лише інтерпретацією : чи твердження про ефективність стосується багатьох перевірених моделей, чи екстраполюється на одну модель, побудовану з усіх даних).

— cbeleites незадоволений SX
джерело