Ідея gui11aume побудови двоступеневої моделі - це правильний шлях, однак потрібно врахувати особливу складність вашої установки, яка полягає в дуже сильній негативній кореляції між сумою боргу та ймовірністю здійснення платежу.
Першочергове питання побудови двоступеневої моделі тут полягає в тому, що друга модель (для прогнозування боргу), побудована лише на "не нулях", будується на найбільш ймовірній випадковій вибірці населення ( тобто весь набір даних), але комбіновану модель потрібно знову застосувати до всього населення. Це означає, що друга модель повинна буде передбачати частину даних, яких вона ніколи не бачила, що призводить до втрати точності. Це називається Збір вибіркової вибірки (для огляду з точки зору ML я рекомендую Байєсівську мережеву рамку для відхилення висновку Смітом та Елканом).
Кубок KDD-98 мав справу з подібним питанням , де потрібно передбачити , буде чи, швидше за все, знову пожертвувати і скільки це може пожертвувати донор для організації ветеранів. У цьому наборі даних ймовірність повторного пожертвування негативно корелювалась із очікуваною сумою грошей. З'явилося також зміщення відбору зразків.
Рішення, яке мене найбільше вразило, можна знайти у навчанні та прийнятті рішень, коли витрати та ймовірності невідомі Б’янка Задрозний та Чарльз Елкан. Вони створили рентабельне рішення на основі виправлення Гекмана , який, наскільки мені відомо, є першим систематичним підходом для виправлення (вибірки) зміщення відбору.