Найкращий спосіб поєднання двійкової та безперервної відповіді


10

Я намагаюся придумати найкращий спосіб передбачити суму платежу для колекторського агентства. Залежна змінна значення є ненульовою лише тоді, коли здійснено платіж. Зрозуміло, що існує велика кількість нулів, оскільки більшість людей не можуть бути досягнуті або не можуть повернути борг.

Існує також дуже сильна негативна кореляція між сумою боргу та ймовірністю здійснення платежу. Як правило, я б створив логістичну модель для прогнозування ймовірності виплати / невиплати, але це невдалий наслідок пошуку людей з найнижчими залишками.

Чи є спосіб комбінувати логістичну модель оплати / несплати з окремою моделлю, яка передбачає суму платежу?


5
Існує завищена нульовою нормальною регресія, що, здається, відповідає вашим потребам. Дивіться цей документ
Пітер Флом

@PeterFlom, на вашу думку, це порівнюється з дискусією gui11aume та Steffen про двоступеневу модель та зміщення вибору вибірки?
As3adTintin

1
Я думаю, що обидва можуть бути корисними. Там було обговорено порівняння двох, але я забуваю, де я це прочитав.
Пітер Флом

Що я в кінцевому підсумку робив, це створити нейронну мережу з активацією relu для виходу та середньою логарифмічною втратою у квадраті
Zelazny7

добре, дякую. Нейронна мережа / активація relu звучить повз моїх теперішніх знань, але я буду продовжувати вивчати це. дякую за запитання оригінального питання та за коментарі!
As3adTintin

Відповіді:


6

Ідея gui11aume побудови двоступеневої моделі - це правильний шлях, однак потрібно врахувати особливу складність вашої установки, яка полягає в дуже сильній негативній кореляції між сумою боргу та ймовірністю здійснення платежу.

Першочергове питання побудови двоступеневої моделі тут полягає в тому, що друга модель (для прогнозування боргу), побудована лише на "не нулях", будується на найбільш ймовірній випадковій вибірці населення ( тобто весь набір даних), але комбіновану модель потрібно знову застосувати до всього населення. Це означає, що друга модель повинна буде передбачати частину даних, яких вона ніколи не бачила, що призводить до втрати точності. Це називається Збір вибіркової вибірки (для огляду з точки зору ML я рекомендую Байєсівську мережеву рамку для відхилення висновку Смітом та Елканом).

Кубок KDD-98 мав справу з подібним питанням , де потрібно передбачити , буде чи, швидше за все, знову пожертвувати і скільки це може пожертвувати донор для організації ветеранів. У цьому наборі даних ймовірність повторного пожертвування негативно корелювалась із очікуваною сумою грошей. З'явилося також зміщення відбору зразків.

Рішення, яке мене найбільше вразило, можна знайти у навчанні та прийнятті рішень, коли витрати та ймовірності невідомі Б’янка Задрозний та Чарльз Елкан. Вони створили рентабельне рішення на основі виправлення Гекмана , який, наскільки мені відомо, є першим систематичним підходом для виправлення (вибірки) зміщення відбору.


+1 Ваш другий абзац дуже гарно підкреслює те, чого не вистачає в моїй відповіді.
gui11aume

Як це порівнюється з пропозицією Пітера Флома про нульову завищену зрушення нормальної регресії?
As3adTintin

3

Це дуже приємне запитання (+1).

Чому б не ставитись до 0, як ніби вони НС?

Ви можете додати фіктивну відповідь, яка вказує, чи були вилучені гроші ( тобто дорівнює 0, коли значення дорівнює 0, і 1, коли значення є позитивним) і помістити логістичну модель для цього бінарного відповіді з тими ж прогнозами. Вам підійдуть 2 моделі: двійковий відповідь, що використовує всі точки даних, і безперервна відповідь, використовуючи лише ненульові точки даних (відповідно до ідеї трактувати 0 як NA).

Ви все ще можете перевірити недійсність параметрів у кожній моделі та обчислити очікуване посилення за допомогою обох наборів параметрів.


Дякую за пропозицію. До мого запитання я створив дві залежні змінні та набори даних, схожі на те, що ви описуєте. Чи можете ви детальніше пояснити, що ви маєте на увазі під "все-таки нікчемністю параметрів"? Дякую!
Zelazny7

"Все-таки недійсність параметрів" була помилковою помилкою, яку я зафіксував у тексті. Вибачте з цього приводу :-)
gui11aume
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.