Що таке "відхилити зараження" і як це можна використовувати для підвищення точності моделі?


10

Хтось може детально пояснити:

  1. Що означає відхилення зараження?
  2. Як це можна використовувати для підвищення точності моєї моделі?

У мене є ідея відхилити зараження в застосуванні до кредитних карт, але бореться з думкою про її використання, щоб підвищити точність моєї моделі.

Відповіді:


23

У побудові кредитної моделі відхилення від залучення - це процес висновку про ефективність кредитних рахунків, які були відхилені в процесі подання заявки.

Створюючи модель кредитного ризику додатків, ми хочемо побудувати модель, яка має застосовність " через двері ", тобто ми вводимо всі дані програми в модель кредитного ризику, і модель виводить рейтинг ризику або ймовірність за замовчуванням Проблема при використанні регресії для побудови моделі з попередніх даних полягає в тому, що ми знаємо продуктивність облікового запису лише для минулих прийнятих програм. Однак ми не знаємо ефективність відхилень, оскільки після подання заявки ми відправили їх назад у двері. Це може призвести до упередженості вибору в нашій моделі, тому що якщо ми використовуємо лише минуле "прийняття" у нашій моделі, модель може не працювати добре на "скрізь" двері.

Існує багато способів боротьби з відхиленням посягань, всі вони суперечливі. Я згадаю тут два простих.

  • "Визначте минулі відхилення як погані"
  • Розсилка

"Визначити минулі відхилення як погані" - це просто взяти всі відхилені дані програми, а замість того, щоб відкидати їх під час створення моделі, призначити їх усіма як погані. Цей метод сильно зміщує модель до минулої політики прийняття / відхилення.

«Парцелінг» трохи складніший. Він складається з

  1. Побудувати регресійну модель з минулим "приймає"
  2. Застосувати модель до минулих відхилень, щоб призначити їм оцінки ризику
  3. Використовуючи очікувану ймовірність дефолту для кожного рейтингу ризику, призначте відхилені програми хорошими або поганими. Наприклад, якщо вірогідність дефіциту ризику становить 10%, і є 100 відхилених додатків, які потрапляють у цей рейтинг ризику, призначте 10 відхилень «поганим», а 90 відхилень - «хорошим».
  4. Перебудуйте регресійну модель, використовуючи прийняті додатки, і тепер можна зробити висновок про ефективність відхилених програм

На кроці 3 є різні способи виконати завдання доброму чи поганому, і цей процес також можна застосовувати ітеративно.

Як було сказано раніше, використання зараження відхилень є суперечливим, і важко дати просту відповідь про те, як це можна використовувати для підвищення точності моделей. Я просто процитую деякі інші питання з цього приводу.

Джонатан Крук та Джон Банасик, чи відхилення висновку дійсно покращує ефективність моделей оцінювання додатків?

По-перше, навіть у тому випадку, коли дуже велика частка заявників відхиляється, сфера вдосконалення щодо моделі, параметризованої лише для тих, хто приймається, видається скромною. Якщо рівень відхилення не настільки великий, ця сфера дійсно виявляється дуже малою.

Девід Хенд, "Прямий вплив на кредитні операції", що з'являється у "Довіднику з кредитування", 2001

Запропоновано і застосовується кілька методів, і хоча деякі з них явно бідні і ніколи не рекомендуються, не існує єдиного найкращого методу універсальної застосованості, якщо не буде отримана додаткова інформація. Тобто найкращим рішенням є отримання додаткової інформації (можливо, надання кредитів деяким потенційним відхиляючим) про тих заявників, які потрапляють у регіон відхилення.


1
+1 для широкого огляду. Тепер я теж знаю, що таке відкидання
зараження

1
Дякую. але як їх призначити на кроці 3? Я читав, що замість використання 1 або 0 ви можете використовувати ймовірність для кожного рядка. Так у вас буде та сама людина з 10% і 90%. Як це може працювати з створенням нової логістичної моделі?
GabyLP

1

@GabyLP у попередніх коментарях. Виходячи з мого досвіду, ви можете розділити таких клієнтів на дві частини і призначити ваги обом розбиттям відповідно до ймовірності. Наприклад, якщо відхилений клієнт має 10% PD, ви можете зробити двох клієнтів із цього. Перший має мінливу змінну 1 і вагу 0,1, а другий має мінливу змінну 0 і масу 0,9

Весь прийнятий зразок клієнтів матиме вагу == 1.

Хоча це працює з логістичною регресією, це не працює з моделями на основі дерев.


Чи є у вас джерело для вашої заяви?
Т. Бежевий

Якщо питання про те, що це не працює на моделях на основі дерев, то моя відповідь - особистий досвід. Я намагався реалізувати такий підхід, але не досяг успіху.
MiksL
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.