Я працюю над проектом машинного навчання з даними, які вже (сильно) упереджені підбором даних.
Припустимо, у вас є набір жорстко закодованих правил. Як ви будуєте модель машинного навчання для її заміни, коли всі дані, які вона може використовувати, - це дані, які вже відфільтровані за цими правилами?
Щоб зрозуміти, я вважаю, що найкращим прикладом може бути оцінка кредитного ризику . Завдання полягає у фільтрації всіх клієнтів, які, ймовірно, не зможуть здійснити платіж.
- Тепер, єдині (мічені) дані, які ви маєте, - це від клієнтів, які були прийняті за набором правил, тому що лише після їх прийняття ви побачите, чи платить хтось чи ні (очевидно). Ви не знаєте, наскільки хороший набір правил і наскільки вони впливатимуть на розподіл, який не сплачується. Крім того, у вас є незазначені дані від відхилених клієнтів, знову ж таки через набір правил. Тож ви не знаєте, що було б з тими клієнтами, якби їх прийняли.
Наприклад, одним із правил може бути: "Якщо вік клієнта <18 років, то не приймайте"
Класифікатор не може навчитися поводитися з клієнтами, які були відфільтровані цими правилами. Як класифікатор повинен вивчити шаблон?
Ігнорування цієї проблеми призведе до того, що модель піддається впливу даних, яких вона ніколи не зустрічала. В основному, я хочу оцінити значення f (x), коли х тут поза [a, b].