Як впоратися з різницею між розподілом тестового набору та навчальним набором?


23

Я думаю, що одним із основних припущень машинного навчання чи оцінки параметрів є те, що небачені дані надходять із того ж розподілу, що і навчальний набір. Однак у деяких практичних випадках розподіл тестового набору майже не відрізнятиметься від навчального набору.

Скажіть про масштабну проблему багатокласифікації, яка намагається класифікувати описи товарів на приблизно 17 000 класів. У навчальному наборі будуть сильно перекошені пріорі класів, такі, що в деяких класах може бути багато прикладів навчання, а в деяких може бути лише декілька. Припустимо, нам видають тестовий набір з невідомими мітками класу від клієнта. Ми намагаємось класифікувати кожен продукт у тестовому наборі на один із 17000 класів, використовуючи класифікатор, що навчається на навчальному наборі. Набір тестів, ймовірно, мав би перекосити розподіл класів, але, ймовірно, сильно відрізняється від навчального набору, оскільки вони можуть бути пов'язані з різними сферами бізнесу. Якщо розподіл двох класів сильно відрізняється, навчений класифікатор може не працювати належним чином у тестовому наборі. Це здається особливо очевидним для класифікатора Naive Bayes.

Чи існує якийсь принциповий спосіб вирішити різницю між навчальним набором та певним тестовим набором для імовірнісних класифікаторів? Я чув про те, що "трансдуктивний SVM" робить подібне в SVM. Чи є подібні методики вивчення класифікатора, який найкраще працює на певному тестовому наборі? Тоді ми можемо перевчити класифікатор для різних заданих тестових наборів, як це дозволено в цьому практичному сценарії.

Відповіді:


17

Якщо різниця полягає лише у відносних частотах класів у навчальних і тестових наборах, я рекомендую процедуру ЕМ, представлену в цій роботі:

Марко Саєренс, Патріс Латінне, Крістін Декастекер: Пристосування виходів класифікатора до нових ймовірностей пріорі: проста процедура. Нейрові обчислення 14 (1): 21-41 (2002) ( www )

Я сам це використовував і виявив, що він дуже добре працює (хоча вам потрібен класифікатор, який видає ймовірність членства в класі).

Якщо розподіл шаблонів всередині кожного класу змінюється, то проблема відома як "коваріатний зсув", і є чудова книга Сугіяма та Каванабе . Багато робіт цієї групи доступні в режимі он-лайн, але я настійно рекомендую також прочитати книгу, якщо ви зможете отримати копію. Основна ідея полягає у зважуванні даних тренувань відповідно до різниці щільності між навчальним набором та тестовим набором (для яких етикетки не потрібні). Найпростіший спосіб отримати зважування - за допомогою логістичної регресії передбачити, чи вимальовується візерунок із навчального набору чи тестового набору. Важка частина полягає у виборі, яку вагу слід застосувати.

Дивіться також приємну публікацію в блозі Алекса Смола тут .


Дуже дякую за надання стільки корисних покажчиків!
Фашандже

немає проблем, подібні "нестандартні" ситуації справді цікаві, а коваріаційний зсув є особливо корисною сферою досліджень.
Дікран Марсупіал

1
Добре це знати. Хоча це "нестандартно", на практиці це реально.
Фашандже

1

Я знайшов чудовий підручник про адаптацію домену, який може допомогти пояснити це більш детально: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html Одне рішення, яке тут не згадувалося, засноване на ADABOOST. Ось посилання на початкову статтю: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf Основна ідея полягає у використанні деяких нових тестових даних для оновлення навчання з даних поїздів. . Ця стаття є підказкою Айсбурга про трансферне навчання-- де ви берете те, що знаєте, з одного завдання і застосовуєте його до іншого.


1
Чи можете ви включити деякі основні підсумкові пункти з першого підручника, зокрема, якщо посилання перестане зникати або змінити його місцеположення? У нас виникає проблема із "гниттям посилань", де значення деяких наших старих відповідей погіршилось через те, що посилання перестали працювати, тому приємно, якщо відповіді можуть бути максимально автономними
Silverfish

Ось заархівоване посилання: web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/…
Юстас
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.