Розуміння стратифікованої перехресної перевірки


54

Яка різниця між стратифікованою перехресною валідацією та перехресною валідацією ?

У Вікіпедії сказано:

У стратифікованій перехресній валідації k-кратної складки вибираються таким чином, щоб середнє значення відгуку було приблизно рівним у всіх складках. У випадку дихотомічної класифікації це означає, що кожна складка містить приблизно однакові пропорції двох типів етикетки класів.

Але я все одно розгублений.

  1. Що mean response valueозначає в цьому контексті?
  2. Чому важливо №1?
  3. Як можна досягти №1 на практиці?

Відповіді:


43

У статті крос-валідації в Енциклопедії систем баз даних сказано:

Стратифікація - це процес перегрупування даних, щоб гарантувати, що кожна складка є хорошим представником цілого. Наприклад, у проблемі бінарної класифікації, де кожен клас містить 50% даних, найкраще впорядкувати дані таким чином, щоб у кожному складі кожен клас складав приблизно половину екземплярів.

Щодо важливості стратифікації, Кохаві (Дослідження перехресної валідації та завантажувальної програми для оцінки точності та вибору моделі) робить висновок, що:

Стратифікація, як правило, є кращою схемою, як з точки зору зміщення, так і з урахуванням дисперсії, порівняно з регулярною перехресною валідацією.


5
Чи можете ви інтуїтивно описати, чому краще цей звичайний резюме?
MohamedEzz

Можливо, включіть абзац про те, що існують різні ступені стратифікації, на які ви можете прагнути і що вони в різній мірі втручаються у випадковість складок. Іноді, все, що вам потрібно, це переконатися, що в кожному складі є принаймні один запис кожного класу. Тоді ви можете просто генерувати складки випадковим чином, перевірте, чи виконується ця умова, і лише в навряд чи випадку не буде виконано перестановку складок.
Девід Ернст

37

Стратифікація спрямована на те, щоб кожна складка була репрезентативною для всіх верств даних. Як правило, це робиться під контрольованим способом класифікації та спрямоване на те, щоб кожен клас (приблизно) був рівномірно представлений у кожному тестовому складі (які, звичайно, поєднуються додатково для формування навчальних складок).

Інтуїція, що стоїть за цим, стосується зміщення більшості алгоритмів класифікації. Вони, як правило, зважують кожен екземпляр однаково, що означає, що завищені класи отримують занадто велику вагу (наприклад, оптимізація F-міри, точності або додаткової форми помилок). Стратифікація не є настільки важливою для алгоритму, який зважує кожен клас однаково (наприклад, оптимізація Kappa, Informedness або ROC AUC) або відповідно до матриці витрат (наприклад, що дає значення кожному класу, правильно зваженому та / або витрату на кожен спосіб неправильно класифікувати). Див., Наприклад, DMW Powers (2014), що F-міра не вимірює: Особливості, недоліки, помилки та виправлення. http://arxiv.org/pdf/1503.06410

Одне конкретне питання, яке важливе для навіть неупереджених або врівноважених алгоритмів, полягає в тому, що вони, як правило, не зможуть вивчити або перевірити клас, який зовсім не представлений в кратному порядку, і, крім того, навіть той випадок, коли лише один клас представлений у складці, не дозволяє узагальнити виконані респ. оцінювали. Однак навіть це врахування не є універсальним, і, наприклад, не застосовується так багато для однокласного навчання, яке намагається визначити, що є нормальним для окремого класу, і ефективно ідентифікує людей, що переживають, як іншого класу, враховуючи цю перехресну перевірку йдеться про визначення статистики, не генеруючу конкретний класифікатор.

З іншого боку, наглядова стратифікація загрожує технічній чистоті оцінювання, оскільки мітки даних тестів не повинні впливати на навчання, але в стратифікації використовуються при відборі навчальних примірників. Можливе також без нагляду стратифікація на основі поширення подібних даних навколо дивлячись лише на атрибути даних, а не на істинний клас. Див., Наприклад, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Непідконтрольне розшарування перехресної перевірки для оцінки точності.

Стратифікація також може бути застосована до регресії, а не до класифікації; в цьому випадку, як непідконтрольна стратифікація, використовується подібність, а не тотожність, але контрольована версія використовує відоме справжнє значення функції.

Подальші ускладнення - це рідкісні класи та багатозначна класифікація, де класифікація проводиться за кількома (незалежними) вимірами. Тут кортежі справжніх міток у всіх вимірах можуть розглядатися як класи з метою перехресної перевірки. Однак не всі комбінації обов'язково трапляються, а деякі комбінації можуть бути рідкісними. Рідкісні класи та рідкісні комбінації є проблемою у тому, що клас / комбінація, що виникає принаймні один раз, але менше K разів (у K-CV), не може бути представлена ​​у всіх тестових складках. У таких випадках можна замість цього розглянути форму стратифікованої підсилки (вибірки із заміною для створення повнорозмірного тренувального складання з очікуваними повторами та 36,8% очікуваними невибраними для тестування, причому один екземпляр кожного класу вибирається спочатку без заміни на тестовий склад) .

Інший підхід до багатошарової стратифікації - спробувати розшаровувати або завантажувати кожен вимір класу окремо, не прагнучи забезпечити репрезентативний вибір комбінацій. З L мітками та N екземплярами та екземплярами Kkl класу k для мітки l ми можемо випадковим чином вибрати (без заміни) з відповідного набору мічених екземплярів Dkl приблизно N / LKkl екземплярів. Це не забезпечує оптимального балансу, а шукає баланс евристично. Це можна покращити шляхом заборони вибору міток за квотою або над, якщо немає вибору (оскільки деякі комбінації не трапляються або є рідкісними). Проблеми, як правило, означають або недостатньо даних, або розміри не є незалежними.


5

Середнє значення відповіді приблизно рівне у всіх складках. Ще один спосіб сказати, що частка кожного класу у всіх складках приблизно однакова.

Наприклад, у нас є набір даних із записами 80 класу 0 та 20 записами класу 1. Ми можемо отримати середнє значення відповіді (80 * 0 + 20 * 1) / 100 = 0,2, і ми хочемо, щоб 0,2 було середнім значенням відгуку всіх складок. Це також швидкий спосіб в EDA виміряти, якщо дані набору даних є незбалансованими замість підрахунку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.