Повідомлення про дисперсію повторної перехресної перевірки k-кратного перекладу


17

Я використовував неодноразову перехресну перевірку k-кратного перегляду та повідомляв про середнє значення (метрики оцінювання, наприклад, чутливість, специфічність), обчислене як велике середнє значення для складок різних пробігів перехресної перевірки.

Однак я не впевнений, як я повинен повідомити про відхилення. Тут я знайшов багато питань, що обговорювали повторну перехресну перевірку, однак жодне, про що мені відомо, явно не відповідає на питання про розбіжність у повторних перехресних тестах.

Я розумію, що загальна дисперсія обумовлена: 1) нестабільністю моделі та 2) обмеженим розміром вибірки.

Схоже, існують 4 різні підходи до обчислення дисперсії для повторної перехресної перевірки k-кратного:

1) дисперсія оціночної метрики середньої продуктивності (наприклад, точності) по ходах перехресної валідації є коректною оцінкою дисперсії?

2) об'єднана дисперсія шляхом об'єднання варіацій, характерних для прогону (які обчислюються в різних складках пробігу перехресної перевірки).

3) об'єднати результати класифікації за різним складанням перехресної перевірки у великому векторі. Наприклад, якщо кількість тестових даних у кожній складці дорівнює 10, а у мене є 10-кратне резюме, отриманий вектор для повторення буде розміром 100. Тепер, якщо я повторюю тест перехресної перевірки 10 разів, я мають 10 векторів розміром 100, кожен з яких містить результати класифікації 10-кратного циклу CV. Тепер я б обчислив середнє значення та дисперсію, як у випадку з одноразовим CV.

4) Я також читав (рівняння 2 та 3 в 1 ), що дисперсія - це сума зовнішньої дисперсії та очікувана внутрішня дисперсія. Якщо я правильно розумію, зовнішня дисперсія - це дисперсія середніх характеристик повторення, а внутрішня дисперсія - дисперсія в різних складках пробігу перехресної перевірки.

Я дуже вдячний за вашу допомогу та вказівки щодо того, яка дисперсія була б найбільш підходящою для повідомлення про повторну перевірку перехресної перевірки.

Спасибі,


Як і теорія "без безкоштовного обіду"; Ви не можете точно сказати, що будь-який із чотирьох методів є найбільш підходящим, оскільки, здається, всі перераховані вами процедури є відповідними. Однак, враховуючи варіант, я б пішов з варіантом 3. У ньому більше даних, інформація не втрачається, що стосується інших перелічених вами процедур.
дисципліна

Відповіді:


2

1 і 3 здаються мені недійсними, оскільки вони не враховують залежності між повторними прогонами. Іншими словами, повторні k-кратні прогонки більше схожі між собою, ніж реальні повтори експерименту з незалежними даними.

2 не враховує залежності між складками в межах одного циклу.

Я не знаю про 4.

Потенційно релевантною (і перешкоджаючою) посиланням є Bengio & Grandvalet, 2004, "Без об'єктивного оцінювача варіації перехресної валідації K-Fold".

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.