Залишковий аналіз логістичної регресії


12

Це питання є загальним і довготривалим, але будь ласка, майте на увазі мене.

У своєму застосуванні у мене є безліч наборів даних, кожен складається з ~ 20000 точок даних з ~ 50 особливостями та однією залежною бінарною змінною. Я намагаюся моделювати набори даних за допомогою регульованої логістичної регресії (пакет R glmnet )

У рамках мого аналізу я створив залишкові сюжети наступним чином. Для кожної функції я сортую точки даних відповідно до значення цієї функції, поділяю точки на 100 відра, а потім обчислюю середнє значення виходу та середнє значення прогнозування у кожному відрізку. Я викладаю ці відмінності.

Ось приклад залишкової ділянки:

У наведеному сюжеті ознака має діапазон [0,1] (з великою концентрацією при 1). Як бачите, коли значення функції низьке, модель, схоже, є упередженою щодо завищення ймовірності 1-виходу. Наприклад, у самому лівому відрі модель завищує ймовірність приблизно на 9%.

Озброївшись цією інформацією, я хотів би прямо змінити визначення функції, щоб приблизно виправити це зміщення. Зміни, такі як заміна

хх

або

хfа(х)={а якщо х<а х ще

Як я можу це зробити? Я шукаю загальну методологію, щоб людина могла швидко прокручувати всі ~ 50 сюжетів і вносити зміни, робити це для всіх наборів даних і часто повторювати, щоб постійно оновлювати моделі, оскільки дані розвиваються з часом.

Як загальне питання, чи це навіть правильний підхід? Пошуки Google щодо "залишкового аналізу логістичної регресії" не дають багато результатів за допомогою хороших практичних порад. Вони, здається, зафіксовані на відповіді на запитання: "Чи підходить ця модель?" і запропонувати різні тести, як Хосмер-Лемешоу, щоб відповісти. Але мені байдуже, чи гарна моя модель, я хочу знати, як зробити її краще!

Відповіді:


4

Ви не можете реально оцінити упередженість таким чином за логістичної регресії. Очікується, що логіситна регресія буде непідвладна лише коефіцієнтам журналу або показникам logit, log (p / (1-p)). Пропорції будуть перекошені і тому виглядатимуть необ’єктивно. Потрібно побудувати графіки залишків у формі коефіцієнтів журналу.


Як з’єднати залишки без журналу в коді? Середнє арифметичне? Це мене трохи непокоїть. Інтуїтивно зрозуміло, що якщо залишковий аналіз не виявляє упередженості, то я очікую, що коли модель прогнозує Pr [y = 1] <0,2, то y має дорівнювати 1 з ймовірністю менше 0,2. Але ваша відповідь, здається, говорить про те, що це не так. Я правильно розумію?
dshin

це, мабуть, краще розміщено як коментар.
ймовірністьлогічний

Ні Девід, це не означає нічого іншого, крім ймовірності 0,2, можливо, мої зміни дозволяють зробити це більш зрозумілим.
Джон

Вибачте, я ще трохи розгублений. Моє інтуїтивне розуміння неупередженої моделі полягає в тому, що якщо модель прогнозує p = 0,2 для кожної з великої кількості точок даних, то 20% цих точок даних повинні мати y = 1. Чи правильно це розуміння? Якщо так, то, здається, моя методологія побудови графіку повинна правильно відображати упередження. Якщо ні ... то я не дуже задоволений цим поняттям "упередженості"! Якщо об'єктивна модель читання 0,2 нічого не скаже мені про ймовірність того, що y = 1, то яке добро є об'єктивним?
dshin

Так, у 20% повинно бути y = 1. Але це не буде мертвим, воно вийде на якусь суму. У вірогідному просторі, на який напрямок, на вашу думку, він буде вимкнений на і на скільки? Якщо воно буде неупереджено, воно однаково потрапить десь у .2: 1 або 0: .2. Однак, як ви бачите за розмірами цих просторів, вони, як правило, можуть бути далі на більшій площі лише тому, що можуть. У просторі logit відстань має бути рівним + або -.
Джон

2

навряд чи існує якесь загальне програмне забезпечення для цього. швидше за все, тому що немає загальної теорії фіксації питань у регресії. отже, це скоріше відповідь типу "що я б робив", а не теоретично обґрунтована процедура.

сюжет, який ви створюєте, - це в основному візуальний тест на HL зі 100 бункерами, але з використанням одного передбачувача замість передбачуваної ймовірності зробити бінінг. це означає, що ваша процедура, ймовірно, успадкує деякі властивості тесту на HL.

Ваша процедура звучить розумно, хоча ви повинні знати про "перевиконання" своїх критеріїв. ваші критерії також менш корисні як діагностичні, оскільки вони стали частиною процесу оцінки. Крім того, кожного разу, коли ви робите щось за інтуїцією, слід записувати процес прийняття рішень якомога детальніше, наскільки це практично. це тому, що ви можете виявити насіння загального процесу чи теорії, що при їх розробці призводить до кращої процедури (більш автоматичної та оптимальної стосовно певної теорії).

Я думаю, що одним із способів є спочатку зменшити кількість сюжетів, які потрібно дослідити. один із способів зробити це - встановити кожну змінну як кубічний сплайн, а потім дослідити ділянки, які мають ненульові нелінійні оцінки. враховуючи кількість точок даних, це також легке автоматичне виправлення нелінійностей. це розширить вашу модель з 50 до 200 + 50k, де k - кількість вузлів. Ви можете подумати про це як про застосування "статистичного розширення ряду Тейлора" "справжньої" трансформації.

якщо діагностичні фотографії після цього виглядають погано, я б спробував додати терміни взаємодії.

частини вашого запитання здаються більше щодо написання інтерактивної програми, яка є більшою областю стаціонарного потоку, ніж тут. також може бути корисним пошук інструментальних інструментів аналізу даних, оскільки вони, швидше за все, мають функції, які ви можете "виправити".


Дякуємо за цю відповідь. Я вивчу ідею кубічного сплайну. Я застосував такий підхід "перегляд сюжетів та коригування особливостей" в умовах лінійної регресії, де здавалося більш очевидним, як досягти кращих припадків. Наприклад, якщо ви бачите хокейну палицю, очевидно, що застосування корекції f_a (x) призводить до кращого пристосування. Часто знання з проблемної області збігаються з цим рішенням: якщо, наприклад, ви прогнозуєте щастя від доходу, було б сенс обмежувати доходи, якщо ви не вважаєте, що мільярдери в 1000 разів щасливіші, ніж мільйонери.
dshin

Але коли я перейшов до налаштування логістичної регресії, я зрозумів, що не дуже впевнений, як передати свою методологію. Звідси це подання.
dshin
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.