Залишки для логістичної регресії та відстані Кука


10
  1. Чи є якісь припущення щодо помилок для логістичної регресії, такі як постійна дисперсія термінів помилки та нормальність залишків?

  2. Також зазвичай, якщо у вас є точки, відстань Кука яких перевищує 4 / n, ви видаляєте їх? Якщо ви все-таки видалите їх, як ви можете зрозуміти, чи краще модель із вилученими точками?

Відповіді:


12

Я не знаю, чи можу я дати вам повну відповідь, але я можу дати вам кілька думок, які можуть бути корисними. По-перше, всі статистичні моделі / тести мають припущення. Однак логістична регресія дуже не передбачає, що залишки нормально розподіляються, а також, що дисперсія є постійною. Скоріше передбачається, що дані поширюються як двочлен, , тобто з кількістю випробувань Бернуллі, рівним кількості спостережень у тому точному наборі величин коваріату та з ймовірністю, пов'язаною з цим набором значень коваріату. Пам'ятайте, що дисперсія двочлена є . Таким чином, якщоn p ( 1 - p ) nB(nxi,pxi)np(1p)nваріюють на різних рівнях коваріату, також будуть відхилення. Далі, якщо будь-який з коваріатів взагалі пов'язаний зі змінною відповіді, то ймовірності будуть змінюватися, і, таким чином, будуть змінюватися і дисперсії. Це важливі факти щодо логістичної регресії.

По-друге, порівняння моделей зазвичай проводиться між моделями з різними специфікаціями (наприклад, з різними наборами коваріатів), а не над різними підмножинами даних. Якщо чесно, я не впевнений, як це було б правильно зробити. З лінійної моделлю, можна подивитися на 2 з , щоб побачити , наскільки краще підгонка з аномальними даними виключені, але це буде тільки описову, і ви повинні знати , що буде мати йти вгору. Однак при логістичній регресії стандарт не може бути використаний. Існують різні 'псевдо-R 2 R 2 R 2 R 2 R 2R2R2R2R2s ', розроблені для надання подібної інформації, але вони часто вважаються недоліками і не часто використовуються. Огляд різних псевдо- s, які існують, дивіться тут . Деякі дискусії та критику з них дивіться тут . Іншою можливістю може бути вилучення бета-версії з включеними аутлайнерами і без того, щоб побачити, як їх виключення сприяє стабілізації розподілу вибірки. Знову ж таки, це буде лише описовим (тобто, це не буде тестом, щоб визначити, якій моделі - наприклад, підмножині ваших даних - віддати перевагу), і дисперсія повинна знизитися. Ці речі правдиві для обох псевдо-R2R2s та дистрибутивом jackknifed, оскільки ви вибрали ці дані для виключення, виходячи з того, що вони здаються крайніми.


8

1) Чи є якісь припущення щодо помилок логістичної регресії, такі як постійна дисперсія термінів помилки та нормальність залишків?

Логістичні регресійні моделі не мають "помилок" у традиційному розумінні. Це і протиінтуїтивно, і методологічно непослідовно. Модельні результати є встановленими ймовірностями або ризиками, тоді як спостережувані результати є показниками подій 0/1. В методологічному аспекті ви, як правило, недостатньо підкреслюєте домени з дуже високими або дуже низькими придатними ймовірностями (вносячи дуже малі суми до залишкової відстані), тоді як алгоритм підгонки моделі надає значно більшого значення для таких регіонів. Відстань у квадраті - це поганий спосіб калібрування логістичної регресійної моделі.

Альтернативним тестом на придатність є тест Хосмера-Лемешоу, в якому встановлені значення використовуються для створення бінних розділів на основі децилів встановленого ризику. Ви можете прочитати про цей тест у категоричному аналізі даних Алана Агресті або книзі Логістична регресія Хосмера та Lemeshow. Інший процес полягає у використанні студенізованих залишків, де середнє співвідношення дисперсії використовується для зважування залишків шляхом їх встановленої зворотної дисперсії. Для логістичної регресії це так

rstud=Yμμ(1μ)

2) Крім того, зазвичай, якщо у вас є точки, у яких відстань Кука більше 4 / n, ви видаляєте їх? Якщо ви все-таки видалите їх, як ви можете зрозуміти, чи краще модель із вилученими точками?

Я ніколи не знімаю бали на основі аналізу чутливості. Якщо я роблю випадкову вибірку з 100 осіб, і їх дохід, а 1 людина буває мільярдером, то моє найбезпечніше припущення - це те, що 1 мільярдер становить 1/100-ту частину населення.


Чому ви вважаєте, що 1 мільярд представляє 1/100 населення? Можливо, ви могли б отримати зовнішню оцінку частки мільярдерів у населенні!
kjetil b halvorsen

6

Я погоджуюся з коментарем AdamO вище, загалом - припускаючи, що 1 мільярдер представляє 1/100 частина населення, це абсолютно добре. Однак, якщо присутність 1 мільярдера перекривить дані настільки сильно, що прогноз на інші 99 людей вплине, я б видалив 1 мільярдера. Я б скоріше помилявся з прогнозуванням екслідера, ніж усі інші.

Сказавши, що якщо ви видалите точки даних за допомогою значень D Кука (тобто нічого> 4 / df), ви можете використовувати область під кривими ROC для обох моделей, щоб перевірити на покращення.


1
(+1) Моделювання зв’язку між коефіцієнтами відповіді та доходами природним сплайном, можливо, заздалегідь трансформуючи дохід, є ще одним способом уникнути надто сильного впливу на прогнози мільярдера для інших. Видаляючи його, ви говорите про те, що ви щасливі не робити прогнозів для інших мільярдерів (досить справедливо), а не раді робити неправильні прогнози щодо них.
Scortchi

Як не дивно, якщо говорити про прогнозування бінарних подій, то правда, що виключення впливових спостережень може призвести до кращої калібрування прогнозів ризику. Однак виключення впливових спостережень зменшить дискримінацію передбачень ризиків. Останнє, мабуть, важливіше. Що стосується прогнозування ризику певної події (яка становить 0 або 1, не оцінюється постійно), найкращий вид прогнозування підштовхне прогнози випадків ближче до 1, а прогнози контролю - ближче до 0. Бали високого впливу часто ефективні роблячи це.
AdamO
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.