Обробка регулярно збільшується набору функцій


10

Я працюю над системою виявлення шахрайств. У цій галузі регулярно з'являються нові шахрайства, так що нові моделі повинні додаватися до моделі на постійній основі.

Цікаво, який найкращий спосіб впоратися з цим (з точки зору процесу розвитку)? Просто додавання нової функції у векторний функцію та перепідготовка класифікатора, здається, є наївним підходом, оскільки занадто багато часу буде витрачено на перенавчання старих функцій.

Я роздумую над способом підготовки класифікатора для кожної функції (або пари супутніх ознак), а потім поєдную результати цих класифікаторів із загальним класифікатором. Чи є недоліки такого підходу? Як я можу вибрати алгоритм для загального класифікатора?

Відповіді:


4

В ідеальному світі ви зберігаєте всі свої історичні дані і дійсно запускаєте нову модель з новою функцією, вилученою заднім числом з історичних даних. Я б заперечував, що обчислювальний ресурс, витрачений на це, є фактично корисним. Це справді проблема?

Так, це загальноприйнята методика створення ансамблю класифікаторів та об'єднання їх результатів. Ви можете будувати нову модель паралельно лише за новими можливостями та середнім рівнем її прогнозування. Це повинно додавати значення, але ви ніколи не зафіксуєте взаємодію між новими та старими функціями таким чином, оскільки вони ніколи не з'являться разом у класифікаторі.


2

Ось ідея, яка щойно вискочила - що робити, якщо ви скористаєтесь вибірковою вибіркою підпростори (як насправді Шон Оуен вже запропонував) для підготовки купки нових класифікаторів щоразу, коли з’являється нова функція (використовуючи випадковий підмножина функцій, в т.ч. новий набір функцій). Ви зможете навчити ці моделі і на підмножині зразків, щоб заощадити час на навчання.

Таким чином, ви можете мати нові класифікатори, можливо, користуючись як новими, так і старими можливостями, і одночасно зберігати свої старі класифікатори. Ви навіть можете, використовуючи метод перехресної перевірки для вимірювання продуктивності кожного класифікатора, через деякий час зможете знищити найгірші результати, щоб уникнути роздутої моделі.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.