Стратифікація спрямована на те, щоб кожна складка була репрезентативною для всіх верств даних. Як правило, це робиться під контрольованим способом класифікації та спрямоване на те, щоб кожен клас (приблизно) був рівномірно представлений у кожному тестовому складі (які, звичайно, поєднуються додатково для формування навчальних складок).
Інтуїція, що стоїть за цим, стосується зміщення більшості алгоритмів класифікації. Вони, як правило, зважують кожен екземпляр однаково, що означає, що завищені класи отримують занадто велику вагу (наприклад, оптимізація F-міри, точності або додаткової форми помилок). Стратифікація не є настільки важливою для алгоритму, який зважує кожен клас однаково (наприклад, оптимізація Kappa, Informedness або ROC AUC) або відповідно до матриці витрат (наприклад, що дає значення кожному класу, правильно зваженому та / або витрату на кожен спосіб неправильно класифікувати). Див., Наприклад, DMW Powers (2014), що F-міра не вимірює: Особливості, недоліки, помилки та виправлення. http://arxiv.org/pdf/1503.06410
Одне конкретне питання, яке важливе для навіть неупереджених або врівноважених алгоритмів, полягає в тому, що вони, як правило, не зможуть вивчити або перевірити клас, який зовсім не представлений в кратному порядку, і, крім того, навіть той випадок, коли лише один клас представлений у складці, не дозволяє узагальнити виконані респ. оцінювали. Однак навіть це врахування не є універсальним, і, наприклад, не застосовується так багато для однокласного навчання, яке намагається визначити, що є нормальним для окремого класу, і ефективно ідентифікує людей, що переживають, як іншого класу, враховуючи цю перехресну перевірку йдеться про визначення статистики, не генеруючу конкретний класифікатор.
З іншого боку, наглядова стратифікація загрожує технічній чистоті оцінювання, оскільки мітки даних тестів не повинні впливати на навчання, але в стратифікації використовуються при відборі навчальних примірників. Можливе також без нагляду стратифікація на основі поширення подібних даних навколо дивлячись лише на атрибути даних, а не на істинний клас. Див., Наприклад,
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Непідконтрольне розшарування перехресної перевірки для оцінки точності.
Стратифікація також може бути застосована до регресії, а не до класифікації; в цьому випадку, як непідконтрольна стратифікація, використовується подібність, а не тотожність, але контрольована версія використовує відоме справжнє значення функції.
Подальші ускладнення - це рідкісні класи та багатозначна класифікація, де класифікація проводиться за кількома (незалежними) вимірами. Тут кортежі справжніх міток у всіх вимірах можуть розглядатися як класи з метою перехресної перевірки. Однак не всі комбінації обов'язково трапляються, а деякі комбінації можуть бути рідкісними. Рідкісні класи та рідкісні комбінації є проблемою у тому, що клас / комбінація, що виникає принаймні один раз, але менше K разів (у K-CV), не може бути представлена у всіх тестових складках. У таких випадках можна замість цього розглянути форму стратифікованої підсилки (вибірки із заміною для створення повнорозмірного тренувального складання з очікуваними повторами та 36,8% очікуваними невибраними для тестування, причому один екземпляр кожного класу вибирається спочатку без заміни на тестовий склад) .
Інший підхід до багатошарової стратифікації - спробувати розшаровувати або завантажувати кожен вимір класу окремо, не прагнучи забезпечити репрезентативний вибір комбінацій. З L мітками та N екземплярами та екземплярами Kkl класу k для мітки l ми можемо випадковим чином вибрати (без заміни) з відповідного набору мічених екземплярів Dkl приблизно N / LKkl екземплярів. Це не забезпечує оптимального балансу, а шукає баланс евристично. Це можна покращити шляхом заборони вибору міток за квотою або над, якщо немає вибору (оскільки деякі комбінації не трапляються або є рідкісними). Проблеми, як правило, означають або недостатньо даних, або розміри не є незалежними.