Чому слід здійснювати трансформацію категорійних предикторів ВОЕ в логістичній регресії?


10

Коли корисна трансформація категорійних змінних ваги доказів (WOE)?

Приклад можна побачити в трансформації WOE

(Отже, для відповіді , і категоричного прогноктора з категоріями, і успіхів з випробувань в рамках ї категорії цього WOE для ї категорії визначається якykyjnjjj

logyjjkyjjk(njyj)njyj

& перетворення складається з кодування кожної категорії категоричного предиктора з його WOE для формування нового безперервного предиктора.)

Я хотів би дізнатися причину, чому трансформація ВОЕ допомагає логістичній регресії. Яка теорія стоїть за цим?

Відповіді:


6

У прикладі, до якого ви посилаєтесь, категоричний предиктор представлений єдиною суцільною змінною, яка приймає значення для кожного рівня, рівне спостережуваним коефіцієнтам журналу відповіді на цьому рівні (плюс константа):

logyjnjyj+logjk(njyj)jkyj

Ця обфузація зовсім не служить ніякій меті, про яку я можу придумати: ви отримаєте таку ж передбачувану відповідь, як якщо б ви використовували звичайне фіктивне кодування; але ступеня свободи є помилковою, недійсною є кілька корисних форм висновку про модель.

При множинній регресії з кількома категоричними прогнозами для перетворення, я припускаю, що ви обчислили WOE для кожного, використовуючи граничні коефіцієнти журналу. Це змінить прогнозовані відповіді; але оскільки конфуз не враховується - умовні коефіцієнти журналу не є лінійною функцією граничних коефіцієнтів журналу - я не бачу жодної причини припускати, що це поліпшення, і інфекційні проблеми залишаються.


Чи можете ви пояснити, чому ступінь свободи не так із WOE? Це просто трансформація? Також що робити, якщо у нас було кілька категоричних змінних, і ми отримали WOE для кожної окремої? З мого досвіду, коли у вас є багато категоричних змінних, то деякі відра між різними змінними сильно перекриваються, і ви починаєте бачити деякі коефіцієнти, які є незначними. А також потрібно нести кілька коефіцієнтів.
адам

1
(1) Трансформація, яка залежить від оцінки відношення предикторів до реакції - те, що повинно залишатися регресом. Так, наприклад, тестова статистика ймовірності не матиме такого ж розподілу, як коли попередньо визначена трансформація. (2) Добрий момент! - множинна регресія WOE не буде еквівалентною аналогічній для фіктивних змінних (якщо тільки моделі не насичені). (3) То що? (4) Коефіцієнти не важчі, ніж ВЕО.
Scortchi

Я думаю, WoE - це залишок часів, коли обчислення, де більше проблем, ніж сьогодні. Тож можливо, при категоричних прогнозах з МНОГО рівнями перетворення на числову змінну було яскравою ідеєю!
kjetil b halvorsen

1

Грубе класифікація із застосуванням міри ваги доказів (WoE) має таку перевагу: WoE відображає лінійну залежність із природним логарифмом коефіцієнта шансів, що є залежною змінною при логістичній регресії.
Тому питання про неправильне визначення моделі не виникає при логістичній регресії, коли ми використовуємо WoE замість фактичних значень змінної.

α β W o E ( V a r 1 ) γ W o E ( V a r 2 ) η W o E ( V a r 3 )ln(p/1p) = + * + * + *αβWoE(Var1)γWoE(Var2)ηWoE(Var3)

Джерело: В одному з PPT мій тренер показав мені під час навчання компанії.


2
"неправильне визначення моделі не виникає при логістичній регресії, коли ми використовуємо WoE замість фактичних значень змінної". Чи можете ви пояснити / довести це математично?
adam

Я не з фонової аналітики ризиків, але, як стверджується, стор. 131,132 цієї книги books.google.co.in/…
Шрікант Гухан

Також це посилання стверджує те саме, хоча жодна математика не пояснюється analyticbridge.com/forum/topics/…
Шрікант Гухан

1
Дякую за посилання, але явно неправда, що граничні шанси журналу, до яких пропорційний WoE, мають лінійний зв’язок із умовними коефіцієнтами журналу, з якими стосується логістична регресія. Плутанина з іншими прогнозами навіть може призвести до того, що категорії упорядкування WoE по-різному.
Scortchi

1

Перетворення WOE допомагають, коли у вас є як числові, так і категоричні дані, що вам потрібно поєднувати і відсутні значення, протягом яких ви хочете отримати інформацію. Перетворення всього в WOE допомагає "стандартизувати" багато різних типів даних (навіть відсутні дані) на одній шкалі шансів на журнал. У цій публікації в блозі досить добре пояснюються речі: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Короткий зміст розповіді полягає в тому, що логістична регресія з ВОЕ повинна просто називатися напівнаївно-байєсівським класифікатором (SNBC). Якщо ви намагаєтесь зрозуміти алгоритм, назва SNBC, на мене, набагато інформативніше.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.