Перш за все, як уже пояснив @Marc Claesen, напівконтрольована класифікація - це одна з методик усунення ситуації, коли ви знаєте, що класи дійсно відрізняються, але ви не впевнені, до якого класу належить цей випадок.
Однак існують і суміжні ситуації, коли "реальність" не так однозначна, і припущення про наявність дійсно різних класів не виконується: прикордонні випадки можуть бути "фізичною" реальністю (див. Нижче статті про заявку де ми зустріли таку умову).
Існує одне важливе припущення для напівнаглядених класифікаторів, яке вам потрібно переконатися, чи виконується: припущення, що в просторі функцій кордони класів поєднуються з низькою щільністю вибірки . Це називається припущенням кластера.
Навіть якщо реальність, що лежить в основі ваших даних, має різні класи, у вашому наборі даних може бути непропорційно більше прикордонних випадків: наприклад, якщо ваша методика класифікації орієнтована на класифікацію складних випадків, тоді як чіткі та легкі випадки не представляють інтерес і вже ваші дані навчання відображають це ситуація.
тільки приймаючи "певні" класифікації для навчання? Я побоююсь, що в цьому випадку буде більше помилок, оскільки "прикордонні" випадки не охоплені.
Я повністю погоджуюся з вами, що виключення прикордонних випадків часто є поганою ідеєю: видаляючи всі складні випадки, у вас виникає штучно проста проблема. ІМХО ще гірше, що виключення прикордонних випадків зазвичай не припиняється на навчанні моделей, але прикордонні випадки також виключаються з тестування, таким чином тестуючи модель лише у легких випадках. З цим ви навіть не здогадуєтесь, що модель не дуже добре працює з прикордонними випадками.
Ось два документи, про які ми писали про проблему, яка відрізняється від вашої тим, що в нашому додатку також реальність може мати "змішані" класи (більш загальна версія вашої проблеми: також висвітлюється невизначеність посилальних позначок).
- Застосування: діагностика пухлини головного мозку. Ми використовували логістичну регресію. Напівконтрольне моделювання не було доречним, оскільки ми не можемо припустити низьку щільність вибірки на межах класу.
C. Beleites, K. Geiger, M. Kirsch, SB Sobottka, G. Schackert та R. Salzer: Раманова спектроскопічна класифікація тканин астроцитоми: з використанням м'якої довідкової інформації, Anal. Біоанал. Chem., 400 (2011), 2801 - 2816.
- Дослідження теорії, що визначає загальну основу для вимірювання ефективності класифікатора для прикордонних випадків.
C. Beleites, R. Salzer та V. Sergo:
Валідація моделей м'якої класифікації за допомогою парціальних членів класу: розширена концепція чутливості та Ко, застосована до
оцінювання тканин хімії астроцитоми . Intell. Лабораторія. Сист., 122 (2013), 12 - 22.
Посилання переходять на сторінку проекту пакету R, який я розробив для розрахунків продуктивності. Є додаткові посилання як на офіційну веб-сторінку, так і на мої рукописи статей. У той час як я не використовував Weka до сих пір, я розумію , що інтерфейс R доступний .
практичні міркування:
- Незважаючи на те, що підхід копіювання та маркування різний, він не працює добре з усіма класифікаторами та реалізаціями на практиці. Напр., AFAIK не може сказати
libSVM
налаштування за допомогою перехресної перевірки, що всі копії кожної точки даних необхідно зберігати в одній і тій же перехресній валідації. Таким чином libSVM
, тюнінг, ймовірно, призведе до масової надмірної моделі.
- Також для логістичної регресії я виявив, що багато реалізацій не дозволяють отримати часткові мітки членства, які мені потрібні.
- Реалізація, яку я використовував для вищезазначених робіт, насправді є ANN без прихованого шару, використовуючи логістичну функцію як сигмоїдальну функцію зв'язку (
nnet::multinom
).