Оцінки варіацій у k-кратній перехресній валідації


27

Перехресна перевірка K-кратна може бути використана для оцінки можливостей узагальнення даного класифікатора. Чи можу я (або я повинен) також обчислити об'єднану дисперсію з усіх циклів перевірки, щоб отримати кращу оцінку її дисперсії?

Якщо ні, то чому?

Я знайшов документи, які використовують об'єднане стандартне відхилення через крос перехресної перевірки . Я також знайшов документи, в яких прямо вказано, що не існує універсального оцінювача дисперсії валідації . Однак я також знайшов документи, які показують деякі оцінки дисперсії для помилки узагальнення (я все ще читаю і намагаюся зрозуміти цю). Що реально роблять (чи звітують) люди на практиці?

EDIT: Коли CV використовується для вимірювання грубої помилки класифікації (тобто вибірка була позначена правильно, або вона не є; наприклад, істинною чи помилковою), то, можливо, немає сенсу говорити про об'єднану дисперсію. Однак я говорю про випадок, коли статистична оцінка, яку ми оцінюємо, має певну дисперсію. Отже, для заданої відхилення ми можемо визначити як значення для статистики, так і оцінку дисперсії. Не видається правильним відкидати цю інформацію та вважати лише середню статистику. І хоча я усвідомлюю, що можу скласти оцінку дисперсії за допомогою методів завантаження (якщо я не дуже помиляюсь), роблячи це, все одно ігноруватимуть відхилення у складках та брати до уваги лише статистичні оцінки (плюс вимагати набагато більшої обчислювальної потужності).


Чи обчислювали ви дисперсію, розглядаючи два можливі способи побачити, чи сильно вони відрізняються один від одного?
zeferino

Так. У деяких експериментах спостерігалася зміна приблизно на порядок між дисперсією та об'єднаною дисперсією для тренувальних зразків. Не було великої різниці для валідаційних зразків. Більші зміни, здавалося, пов'язані з менш точними моделями.
Сезар

1
@Cesar: приємне спостереження: ваші моделі дуже нестабільні (велика різниця між ітераціями). У класифікації (якщо тільки класифікатор не гірший, ніж здогади), нестабільні прогнози призведуть до неправильних прогнозів. Ілюстративна думка для цього полягає в тому, що відхилення від правильного передбачення завжди буде в напрямку "неправильно", немає занадто високого рівня, який би скасувався з занадто низьким рівнем.
cbeleites підтримує Моніку

1
@cbeleites: чи не було б цього дещо очікувати, оскільки великі зміни дисперсії відбуваються здебільшого в моделях, що демонструють більш високі показники помилок? До речі, приємне оновлення вашої відповіді. Я ще мушу прочитати це уважніше, але я вже дуже вдячний. Спасибі.
Сезар

1
@Cesar: Thx. Звичайно, це менш наочний спосіб заявити, що це формула дисперсії для пропорцій (див. Мою відповідь): чим більш екстремальним є справжній коефіцієнт помилок, тим менша дисперсія, максимальна дисперсія - при швидкості помилки = 50%.
cbeleites підтримує Моніку

Відповіді:


13

Дуже цікаве запитання, мені доведеться прочитати статті, які ви даєте ... Але, можливо, це почне нас у відповідь:

Зазвичай я вирішую цю проблему дуже прагматичним способом: я повторюю перевірку перехресного перетворення k-кратних разів з новими випадковими розколами та обчислюю продуктивність так само, як зазвичай для кожної ітерації. Тоді загальні випробувальні зразки є однаковими для кожної ітерації, і відмінності виникають через різні розбиття даних.

Це я повідомляю, наприклад, як 5-й до 95-го перцентилів спостережуваних результатів. обмін до зразком для нових зразків та обговорення його як міри для нестабільності моделі.nk1

Бічна примітка: я все одно не можу використовувати формули, які потребують розміру вибірки. Оскільки мої дані мають структурну групу або ієрархічну структуру (багато подібних, але неодноразових вимірювань одного і того ж випадку, як правило, декілька [сотень] різних місць одного зразка), я не знаю ефективного розміру вибірки.

порівняння з завантажувальним завантаженням:

  • ітерації використовують нові випадкові розщеплення.

  • головна відмінність - це перекомпонування з (bootstrap) або без (cv) заміни.

  • обчислювальна вартість приблизно однакова, тому що я б не вибрав ні ітерацій cv ітерацій завантажувальної програми / k, тобто обчислював однакову загальну кількість моделей.

  • bootstrap має переваги перед cv в частині деяких статистичних властивостей (асимптотично правильно, можливо, вам потрібно менше ітерацій, щоб отримати хорошу оцінку)

  • однак із резюме у вас є перевага, що вам це гарантовано

    • кількість відмінних навчальних зразків однакова для всіх моделей (важливо, якщо ви хочете розрахувати криві навчання)
    • кожен зразок тестується рівно один раз на кожній ітерації
  • деякі методи класифікації відкидають повторні зразки, тому завантажувальний процес не має сенсу

Варіантність виконання

коротка відповідь: так, має сенс говорити про розбіжність у ситуації, коли існує лише {0,1} результат.

Подивіться на біноміальний розподіл (k = успіхи, n = тести, p = справжня ймовірність успіху = середня k / n):

σ2(k)=np(1p)

Різниця пропорцій (таких як частота звернення, швидкість помилок, чутливість, TPR, ..., я буду використовувати відтепер і для спостережуваного значення в тесті) - це тема, яка заповнює цілі книги .. .рpp^

  • Флісс: Статистичні методи для ставок та пропорцій
  • Фортофер і Лі: Біостатистика має приємне вступ.

Тепер, р = до і тому:p^=кн

σ2(p^)=p(1-p)н

Це означає, що невизначеність для вимірювання продуктивності класифікатора залежить лише від справжньої продуктивності p тестованої моделі та кількості тестових зразків.

Ви маєте на увазі перехресну перевірку

  1. що k "сурогатні" моделі мають таку саму справжню продуктивність, що і "справжня" модель, яку ви зазвичай будуєте з усіх зразків. (Розбиття цього припущення є відомим песимістичним ухилом).

  2. що k "сурогатні" моделі мають однакову справжню ефективність (рівнозначні, мають стабільні прогнози), тому вам дозволяється об'єднати результати k тестів.
    Звичайно, тоді можуть бути об'єднані не тільки k "сурогатні" моделі однієї ітерації cv, але і k i моделі ітерацій k-кратного cv.

Навіщо повторювати?

Головне, що вам ітерації говорять, - це нестабільність моделі (прогнозування), тобто дисперсія прогнозів різних моделей для однієї вибірки.

p^

І так, це важлива інформація.

нбоотстrаpкнiтеr. cvн-1нσ2(p^)=p(1-p)н

pкнp^н

Якщо ви спостерігаєте нестабільність моделі, середнє значення в сукупності є кращою оцінкою справжньої продуктивності. Різниця між ітераціями є важливою інформацією, і ви можете порівняти її з очікуваною мінімальною дисперсією для тестового набору розміром n із справжньою середньою продуктивністю за всі ітерації.


Ви повторюєте нові випадкові розбиття, із заміною, як у завантажувальному? Або ви повторюєте k-кратну перехресну перевірку кілька разів? Це цікаво, адже це не здається завантажувальним, але може працювати так. Але скільки реплікацій ви виконуєте? Це може отримати дуже дорого легко.
Сезар

@Cesar: він дуже схожий на завантажувальний пристрій, дивіться розгорнуту відповідь.
cbeleites підтримує Моніку

Як резюме залишає «однакову кількість різних навчальних зразків» для кожної моделі, але завантажувальна версія цього не робить? Я не дотримуюсь, оскільки резюме "копії наборів даних" є різною комбінацією спостережень - як вони, можливо, забезпечують однакову кількість різних спостережень? Можливо, ви припускаєте, що кожен запис відрізняється від оригінального навчального набору?
ймовірністьлогічний

@probabilityislogic: набори даних для реплікації CV менші, ніж вихідний набір даних. Таким чином, різні такі копії можуть бути отримані навіть при перекомпонування без заміни. Перекомпонування з заміною ви можете зробити один і той же запис кілька разів. Таким чином, кількість унікальних записів може змінюватися. Так, я вважаю, що оригінальні записи є чіткими. Щоб зберегти статистичну незалежність, що є вирішальним для багатьох застосувань, перекомпонування слід проводити на найвищому рівні ієрархії даних. (Наприклад, я працюю з даними про пацієнтів із сотнями рядків для кожного пацієнта =>
перепробовувати

1
н

1

Пам'ятайте, що CV є лише оцінкою і ніколи не може представляти "справжню" помилку узагальнення. Залежно від розміру вибірки (що вплине на вашу кількість складок або розмір складки), ви можете бути сильно обмежені у вашій здатності обчислювати будь-які оцінки параметрів розподілу помилки узагальнення. На мою думку (і я бачив, як це написано в різних підручниках "Відкриття знань з підтримуючими векторними машинами" -Луц Хамель), ви можете зробити варіант завантаження резюме для оцінки розподілу помилки узагальнення, але стандартний 10- 1 (наприклад) один раз резюме не дасть вам достатньо точок даних, щоб зробити висновки про справжню ген-помилку. Запуск завантаження вимагає, щоб ви взяли кілька зразків із заміною з ваших тренувань / тестів / валів, ефективно роблячи багаторазові (скажімо, 1000 чи більше) 10-1 (або будь-які інші) тести резюме. Потім ви приймаєте вибіркове розподіл середніх значень для кожного тесту CV, як оцінку розподілу вибірки середнього для сукупності помилок CV, і з цього ви можете оцінити параметри розподілу, тобто середню, медіану, std min max Q1 Q3 тощо ... Це трохи роботи, і, на мою думку, потрібна лише в тому випадку, якщо ваша заява важлива / досить ризикована, щоб отримати додаткову роботу. тобто, можливо, в маркетинговому середовищі, де бізнес просто радий бути кращим, ніж випадковий, то, можливо, цього не потрібно. АЛЕ, якщо ви намагаєтесь оцінити реакцію пацієнтів на препарати з високим рівнем ризику або передбачити очікування доходів на великі інвестиції, ви можете бути обережними для їх здійснення.


Це оцінка, але так можна сказати про практично будь-яке використання статистики. Однак, коли для кожної складки вже є оцінка дисперсії, не здається правильним відкидати цю інформацію. Я оновив питання із уточненнями.
Сезар

Можливо, я цього не отримую. Я насправді не розумію, чому ти мучишся від дисперсії однієї складки?
clancy

Запуск єдиного 10-кратного резюме не зовсім дешевий для конкретної проблеми, яку я намагаюся вирішити. Ви праві, я міг би оцінити дисперсію, взявши кілька зразків із заміною, як у завантажувальній програмі. Але взяти велику кількість резюме, навіть кілька сотень, може бути дуже непрактичним у моєму випадку. Я шукаю спосіб (якщо такий є) поєднати окремі відхилення в складках, щоб я міг хоча б зменшити кількість необхідних проб завантаження. І до того ж цікавість.
Сезар

ах гаразд. Можливо, тоді дисперсія кожного з 10-кратних засобів від загальної середньої складки буде випадковою змінною, вибраною з розподілу вибірки для відхилень ... (що, на мою думку, є
ділянкою

@ класність: з 10-1 ви маєте на увазі рейтинг виходу-п-10 для n = 10 зразків? Зауважте, що для повторних ітерацій немає сенсу.
cbeleites підтримує Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.