Внутрішня та зовнішня перехресна перевірка та вибір моделі


26

Я розумію, що з перехресною валідацією та вибором моделі ми намагаємось вирішити дві речі:

Р1 . Оцініть очікувані втрати для населення під час навчання за нашим зразком

Р2 . Виміряйте та повідомляйте про нашу невизначеність цієї оцінки (дисперсія, довірчі інтервали, зміщення тощо)

Здається, що стандартна практика полягає в повторній перехресній валідації, оскільки це зменшує дисперсію нашого оцінювача.

Однак, що стосується звітування та аналізу, я розумію, що внутрішня перевірка краща, ніж зовнішня перевірка, оскільки:

Краще повідомити:

  • Статистика нашого оцінювача, наприклад, його інтервал довіри, дисперсія, середнє значення тощо на повній вибірці (в даному випадку вибірку CV).

ніж звітність:

  • Втрата нашого оцінювача на підмножині витримки оригінальної вибірки, оскільки:

    (i) Це було б єдине вимірювання ( навіть якщо ми обираємо наш оцінювач із резюме )

    (ii) Наш оцінювач цього одиночного вимірювання був би навчений на множині (наприклад, набір резюме), менший, ніж наш початковий зразок, оскільки ми повинні звільнити місце для набору витримки. Це призводить до більш упередженої (песимістичної) оцінки P1 .

Це правильно? Якщо ні, чому?

Фон:

Легко знайти підручники, які рекомендують розділити зразок на два набори:

  • Набір резюме , який згодом і неодноразово ділиться на набори поїздів і перевірок .
  • Набір утримування (тест), який використовується лише в кінці для повідомлення про ефективність оцінки

Моє запитання - це спроба зрозуміти достоїнства та переваги цього підручника підручника, враховуючи, що наша мета - реально вирішити проблеми P1 та P2 на початку цієї публікації. Мені здається, що звітування про тестовий набір випробувань є поганою практикою, оскільки аналіз зразка резюме є більш інформативним.

Вкладений K-кратний та повторний K-кратний:

В принципі, можна поєднувати витримку з звичайною K-краткою, щоб отримати вкладену K-складку . Це дозволило б виміряти мінливість нашого оцінювача, але мені здається, що для тієї ж кількості загальнонавчаних моделей (загальна кількість складок) повторне K-кратне дасть оцінники, які є менш упередженими та точнішими, ніж вкладені K- скласти. Щоб побачити це:

  • При повторному K-кратному використанні більша частка нашого загального зразка, ніж вкладена K-кратка для того ж K (тобто це призводить до нижчого зміщення)
  • 100 ітерацій дають лише 10 вимірювань нашого оцінювача у вкладеній K-краті (K = 10), але 100 вимірювань у K-кратному (більше вимірювань призводить до меншої дисперсії в P2 )

Що не так у цьому міркуванні?


1
Я підробив твій заголовок, щоб він був більш специфічним для того, що я збираюсь ти хочеш знати. Я думаю, що ви швидше отримаєте потрібну інформацію таким чином. Не соромтеся змінити його назад, якщо ви не погоджуєтесь. Зауважте також, що ця тема автоматично стала CW через велику кількість редагувань. Якщо ви не хочете, щоб це було CW, позначте його на увазі модератора; це повинно бути можливим назад (я думаю).
gung - Відновити Моніку

1
Дякую @gung. Мене єдине занепокоєння полягає в тому, що деякі люди можуть плутати перерву з дворазовим резюме , при цьому я думаю, що внутрішній та зовнішній резюме, як у Steyerberg03, чіткіше
Amelio Vazquez-Reina

Відповіді:


20

Дозвольте додати кілька моментів до приємних відповідей, які вже є тут:

Вкладений K-кратний та повторний K-кратний: вкладений та повторний k-кратний склад - це абсолютно різні речі, які використовуються для різних цілей.

  • Як ви вже знаєте , вкладене добре, якщо ви хочете використовувати внутрішній ревізор для вибору моделі.
  • повторюється: IMHO ви завжди повинні повторювати k-кратний cv [див. нижче].

Тому я рекомендую повторити будь-яку вкладену перехресну перевірку k-кратного перекладу .

Кращий звіт "Статистика нашого оцінювача, наприклад, його інтервал довіри, дисперсія, середнє значення тощо на повній вибірці (в даному випадку вибірку резюме)". :

Звичайно. Однак вам потрібно усвідомлювати той факт, що ви не зможете (легко) оцінити інтервал довіри лише за результатами перехресної перевірки. Причина полягає в тому, що скільки б ви не повторно працювали, фактична кількість випадків, на які ви дивитесь, є кінцевою (і зазвичай досить невеликою - інакше ви б не переймалися цими відмінностями).
Див., Наприклад, Bengio, Y. та Grandvalet, Y .: Непідвладний оцінювач варіантів K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 .

Однак у деяких ситуаціях ви все-таки можете оцінити відхилення: за допомогою повторної перехресної перевірки k-кратного ви зможете зрозуміти, чи нестабільність моделі відіграє роль. І ця дисперсія, пов'язана з нестабільністю, насправді є тією частиною дисперсії, яку ви можете зменшити за допомогою повторної перехресної перевірки. (Якщо ваші моделі є абсолютно стабільними, кожне повторення / ітерація перехресної перевірки матиме однакові прогнози для кожного випадку. Однак у вас все ще є розбіжність через фактичний вибір / склад вашого набору даних). Таким чином, існує обмеження нижчої дисперсії повторної перехресної валідації k-кратного. Робити більше та більше повторень / ітерацій не має сенсу, оскільки відхилення, спричинене тим, що в підсумку було протестовано лише справжніх випадків, не впливає. н

Відхилення, спричинене тим, що в кінцевому підсумку було випробувано лише реальних випадків, можна оцінити для деяких спеціальних випадків, наприклад, продуктивність класифікаторів, виміряну пропорціями, такими як частота враження, частота помилок, чутливість, специфічність, прогнозні значення тощо : вони слідують за біноміальними розподілами На жаль, це означає, що вони мають величезну дисперсію з справжнє значення продуктивності моделі, спостережуваний і розмір вибірки в знаменнику дробу. Це максимум дляσ 2 ( р ) = 1нр р пр=0,5σ2(p^)=1нp(1-p)pp^нp=0,5. Ви також можете обчислити довірчі інтервали, починаючи з спостереження. (@Frank Harrell коментує, що це не належні правила зарахування балів, тому ви все одно не повинні їх використовувати - що пов'язано з величезною дисперсією). Однак ІМХО вони корисні для виведення консервативних меж (є кращі правила скорингу, а погана поведінка цих фракцій є найгіршим обмеженням для кращих правил),
див., Наприклад, C. Beleites, R. Salzer та V. Sergo: Валідація моделей м'якої класифікації за допомогою часткових членів класу: розширена концепція чутливості та Co., застосована до оцінювання тканин астроцитоми, Chemom. Intell. Лабораторія. Сист., 122 (2013), 12 - 22.

Отже, це дозволяє мені обернутися вашою аргументацією щодо затримки :

  • Ні один перекомпонування (не обов'язково) дає хорошу оцінку дисперсії,
  • OTOH, якщо ви можете розмірковувати про відмінність розміру кінцевого тесту-вибірки для оцінки перехресної валідації, це також можливо, щоб протриматися.

Наш оцінювач цього єдиного вимірювання був би навчений на наборі (наприклад, набір CV), який менший, ніж наш початковий зразок, оскільки ми повинні звільнити місце для набору витримки. Це призводить до більш упередженої (песимістичної) оцінки P1.

Не обов'язково (якщо порівнювати з k-кратним) - але вам доведеться торгувати: невеликий набір витримки (наприклад, зразка => низький ухил (≈ те саме, що k-кратно cv), велика дисперсія (> k-кратне cv, приблизно на коефіцієнт k).1к

Мені здається, що звітування про тестовий набір випробувань є поганою практикою, оскільки аналіз зразка резюме є більш інформативним.

Зазвичай так. Однак також слід пам’ятати, що існують важливі типи помилок (наприклад, дрейф), які неможливо виміряти / виявити шляхом перевірки переустановки.
Див., Наприклад, Esbensen, KH та Geladi, P. Принципи правильної перевірки: використання та зловживання повторним відбором проб для перевірки, Journal of Chemometrics, 2010, 24, 168-187

але мені здається, що для такої ж кількості підготовлених загальних моделей (загальна кількість складок) повторний K-кратний результат дасть оцінки, які є менш упередженими та точнішими, ніж вкладені K-кратні. Щоб побачити це:

При повторному K-кратному використанні більша частка нашого загального зразка, ніж вкладена K-кратка для того ж K (тобто це призводить до нижчого зміщення)

Я б сказав це ні: це не має значення, як модельне навчання використовує свої зразки тренувань, доки сурогатні моделі та "реальна" модель використовують їх у одній і тій же шлях. (Я дивлюся на внутрішню перехресну валідацію / оцінку гіперпараметрів як частину налаштування моделі). Речі виглядають по-іншому, якщо порівнювати сурогатні моделі, які навчаються, включаючи гіперпараметричну оптимізацію, з моделлю "", яка навчається за фіксованими гіпер-параметрами. Але ІМХО узагальнює від яблук до 1 апельсина.kк-1кн
к

100 ітерацій дають лише 10 вимірювань нашого оцінювача у вкладеній K-краті (K = 10), але 100 вимірювань у K-кратному рівні (більше вимірювань призводить до меншої дисперсії в P2)

Чи має це значення, залежить від нестабільності (сурогатних) моделей, дивіться вище. Для стабільних моделей це не має значення. Так може бути, чи робити ви 1000 чи 100 зовнішніх повторів / ітерацій.


І цей документ остаточно належить до списку читання на цю тему: Cawley, GC та Talbot, NLC Про перевиконання у виборі моделі та наступних ухилах відбору в оцінці продуктивності, Journal of Machine Learning Research, 2010, 11, 2079-2107


6

Основна посилання, що пояснює це:

@ARTICLE{pic90,
  author = {Picard, R. R. and Berk, K. N.},
  year = 1990,
  title = {Data splitting},
  journal = The American Statistician,
  volume = 44,
  pages = {140-147}
}

Дивись також:

@Article{mic05pre,
  author =       {Michiels, Stefan and Koscielny, Serge and Hill, Catherine},
  title =        {Prediction of cancer outcome with microarrays: a
multiple random validation strategy},
  journal =      {Lancet},
  year =         2005,
  volume =       365,
  pages =        {488-492},
  annote =       {comment on
p. 454; validation;microarray;bioinformatics;machine learning;nearest
centroid;severe problems with data splitting;high variability of list
of genes;problems with published studies;nice results for effect of
training sample size on misclassification error;nice use of confidence
intervals on accuracy estimates;unstable molecular signatures;high
instability due to dependence on selection of training sample}
}

У своїй роботі я виявив, що для розбиття даних потрібна підготовка та тестові розміри вибірки, що наближаються до 10 000, щоб працювати задовільно.


Френк - Це чудові ресурси. Цікаво, як ця інформація стосується того, що @Dan надав у своїй відповіді. Можливо, я це неправильно читаю, але схоже, що громада розділена з цього питання.
Амеліо Васкес-Рейна

Я не встиг прочитати перше, але що стосується другого, я швидко поглянув, і, здається, повторюється саме те, що говорили мої документи. Погляньте уважно на розділ «Статистичний аналіз», і ви побачите, що вони описують той самий процес вибору функцій, який описав Дікран у публікації, яку я пов’язував вище. Я здогадуюсь, люди, яких вони вивчали, не робили це так, і саме тому вони вважають, що "Через неадекватну перевірку наші вибрані дослідження опублікували надто оптимістичні результати порівняно з результатами наших власних аналізів". Я не думаю, що тут немає розбіжностей.
Dan L

4

Це дійсно залежить від вашого процесу складання моделі, але я вважав цей документ корисним

http://www.biomedcentral.com/content/pdf/1471-2105-7-91.pdf

Суть того, що тут обговорюється, полягає у значній ліберальній упередженості (оцінюючи ефективність моделі на кращу, ніж вона є насправді), яка відбудеться, якщо ви вибираєте модель на основі тієї ж речі, яку ви використовуєте для оцінки її продуктивності. Отже, якщо ви вибираєте модель з набору можливих моделей, переглядаючи її помилку перехресної перевірки, не слід використовувати помилку перехресної перевірки (або будь-який інший метод внутрішнього оцінювання) для оцінки продуктивності моделі.

Ще один корисний ресурс

/stats//a/27751/26589

У цій публікації наводиться наочний приклад того, як вибір ваших функцій, коли всі дані "бачать", призведе до ліберальної упередженості в роботі моделі (мовляв, ваша модель буде працювати краще, ніж є насправді).

Якщо ви хочете, щоб я наводив приклад, більш конкретний для того, що ви робите, можливо, ви могли б дати загальний опис типів моделей, які ви будуєте (скільки у вас даних, скільки функцій вибираєте, фактична модель тощо).


Дякую Дену. Це все цікаво. Для простоти можна припустити, що ми намагаємося оцінити параметри ядра SVM (наприклад, ядро ​​RBF) для двійкової класифікації (<~ 10 параметрів) і що ми працюємо зі 100 вибірками (наприклад, 20 позитивів) з великої сукупності.
Амеліо Васкес-Рейна

Пара швидких питань. 1) Коли ви створюєте свої SVM, чи дозволяєте ви вибирати підмножину з 10 параметрів, або ви завжди використовуєте всі ті, які вам передають? 2) Чи розглядаєте ви коли-небудь різні ядра чи моделі (логістичні, випадкові лісові тощо)? 3) Яке програмне забезпечення / пакет ви використовуєте? Вбудовані в крос-валідації варіанти відрізняються, і я хотів би знати, що ви використовуєте.
Dan L

Дякую @Dan - я здійснюю пошук в сітці за моделями та параметрами (тобто ядра та параметри відрізняються за допомогою пошуку в сітці). Для кожного експерименту в пошуку в сітці я роблю резюме (повторне перехресне підтвердження K-кратної крапки) Я використовую scikit-learn.
Амеліо Васкес-Рейна

1
Дякую @Dan. Я думаю, що моє єдине питання щодо вкладеної перехресної перевірки - як вибрати модель (оскільки я отримую іншу модель у кожній складці зовнішньої петлі). Мені не здавалося б вибирати модель, яка має найвищий бал у цьому зовнішньому циклі, оскільки виграшна модель у кожній складці вимірюється проти іншої частини набору даних.
Амеліо Васкес-Рейна

1
Скажімо, у вас 3 зовнішніх складок. Це означає, що ви запускаєте весь процес створення моделі 3 рази, даючи вам три різні моделі. Зрештою, ви не використовуєте жодної з цих моделей - щоб отримати остаточну модель, ви запускаєте весь процес створення моделі на всіх своїх даних (за винятком, можливо, незалежного набору оцінок). Схоже, це призведе до надмірного розміщення, але якщо ваша стратегія побудови моделі буде переоцінена, вона також повинна перевищувати зовнішню перехресну перевірку, що призводить до відповідно більш високої оцінки помилок.
Dan L

2

Я вважаю, що ваше розуміння правильно, оцінювач втрат, отриманий за допомогою одного тестового набору, зазвичай відрізняється. Виконуючи щось на кшталт перехресної перевірки K-folds, ви отримуєте більш точне уявлення про втрати, а також відчуття розподілу втрати.

Зазвичай відбувається компроміс, чим більше складених резюме, тим краще ваша оцінка, але потрібно більше часу на обчислення.


Спасибі. Я додав фоновий твір до ОП, щоб далі уточнити своє питання.
Амеліо Васкес-Рейна
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.