Я думаю, що одним із основних припущень машинного навчання чи оцінки параметрів є те, що небачені дані надходять із того ж розподілу, що і навчальний набір. Однак у деяких практичних випадках розподіл тестового набору майже не відрізнятиметься від навчального набору.
Скажіть про масштабну проблему багатокласифікації, яка намагається класифікувати описи товарів на приблизно 17 000 класів. У навчальному наборі будуть сильно перекошені пріорі класів, такі, що в деяких класах може бути багато прикладів навчання, а в деяких може бути лише декілька. Припустимо, нам видають тестовий набір з невідомими мітками класу від клієнта. Ми намагаємось класифікувати кожен продукт у тестовому наборі на один із 17000 класів, використовуючи класифікатор, що навчається на навчальному наборі. Набір тестів, ймовірно, мав би перекосити розподіл класів, але, ймовірно, сильно відрізняється від навчального набору, оскільки вони можуть бути пов'язані з різними сферами бізнесу. Якщо розподіл двох класів сильно відрізняється, навчений класифікатор може не працювати належним чином у тестовому наборі. Це здається особливо очевидним для класифікатора Naive Bayes.
Чи існує якийсь принциповий спосіб вирішити різницю між навчальним набором та певним тестовим набором для імовірнісних класифікаторів? Я чув про те, що "трансдуктивний SVM" робить подібне в SVM. Чи є подібні методики вивчення класифікатора, який найкраще працює на певному тестовому наборі? Тоді ми можемо перевчити класифікатор для різних заданих тестових наборів, як це дозволено в цьому практичному сценарії.