Чи має значення незбалансований зразок під час логістичної регресії?


81

Гаразд, тому я думаю, що у мене достатньо гідний зразок, враховуючи велике правило 20: 1: досить великий зразок (N = 374) для загальної кількості 7 змінних прогнозних прогнозів.

Моя проблема полягає в наступному: який би набір змінних предиктора я не використовував, класифікації ніколи не стають кращими, ніж специфічність 100% та чутливість 0%. Як би незадовільно, це насправді може бути найкращим можливим результатом, враховуючи набір змінних прогнозних кандидатів (від яких я не можу відхилятися).

Але я не міг не думати, що можу зробити краще, тому я помітив, що категорії залежної змінної були досить нерівномірно збалансовані, майже 4: 1. Чи міг би більш збалансований підрозділ покращити класифікацію?


5
Важко уявити, як це могло бути. Можливо, ви скорочуєте прогнозовану ймовірність на 0,5? Якщо так, спробуйте змінити обріз.
Аніко

4
Площа під кривою ROC - .585, результат досить поганий. Це означає, що насправді немає значення обрізання, де варто визначити конкретність / чутливість. Сполучення з обрізанням не значно покращить класифікацію, оскільки це просто знизить специфіку приблизно на стільки, наскільки підвищить чутливість.
Міхель

3
0

2
Зауважте також, що розмір вибірки з точки зору доброго прогнозування - це дійсно кількість унікальних шаблонів змінної прогноктора, а не кількість вибіркових осіб. Наприклад, модель з єдиною категоричною змінною прогностики з двома рівнями може відповідати лише логістичній регресійній моделі з двома параметрами (по одному для кожної категорії), навіть якщо у вибірці є мільйони людей.
ймовірністьлогічний

Відповіді:


75

Баланс у навчальному наборі

Для логістичних регресійних моделей незбалансовані дані навчання впливають лише на оцінку перехоплення моделі (хоча це, звичайно, перекриває всі передбачувані ймовірності, що в свою чергу компрометує ваші прогнози). На щастя, корекція перехоплення є простою: Якщо ви знаєте або можете здогадатися, справжня пропорція 0 і 1 та знаєте пропорції у навчальному наборі, ви можете застосувати виправлення рідкісних подій до перехоплення. Деталі розміщені в King and Zeng (2001) [ PDF ].

Ці "виправлення рідкісних подій" були розроблені для дослідницьких проектів контрольних випадків, які в основному використовуються в епідеміології, що вибирають випадки, вибираючи фіксовану, зазвичай збалансовану кількість 0 випадків та 1 випадок, а потім потрібно виправити отриманий ухил відбору вибірки. Дійсно, ви можете тренувати класифікатора так само. Виберіть хороший збалансований зразок, а потім виправте перехоплення, щоб врахувати той факт, що ви вибрали залежну змінну, щоб дізнатися більше про рідші класи, ніж випадковий зразок зможе вам сказати.

Робити прогнози

На пов’язану, але чітку тему: Не забувайте, що вам слід розумно порозумітися, щоб робити прогнози. Не завжди найкраще передбачити 1, коли ймовірність моделі більша 0,5. Ще один поріг може бути кращим. З цією метою слід вивчити криві експлуатаційних характеристик приймача (ROC) свого класифікатора, а не лише його прогнозований успіх із порогом ймовірності за замовчуванням.


8
Якщо ви не знаєте частоти операційного класу, їх можна оцінити ЕМ, не знаючи міток тестових / експлуатаційних зразків. Деталі наведені у Saerens та ін. "Пристосування виходів класифікатора до нових ймовірностей пріорі: проста процедура", Нейрові обчислення, т. 14, вип. 1, с. 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ). Я користувався цим кілька разів і був вражений тим, наскільки добре це працює. Однак зауважте, що теоретична корекція зазвичай не є оптимальною, і встановити її за допомогою, наприклад, перехресної перевірки, часто краще.
Дікран Марсупіал

Так, я мав би зазначити, що результати кривої ROC також не були переконливими. У цьому випадку я думаю, що немає порогу, який би давав задовільні результати.
Міхель

Щодо прогнозування: як я можу врахувати розмір мого навчального набору для результатів 0 та 1? Я дійсно не хочу використовувати поріг 0,5, але не знаю, як це зробити в Р.
Перльника,

1
@Perlnika Деталі знаходяться на паперовому посиланні (у найпростішому випадку ви змінюєте передбачуваний перехоплення). Для порогового значення не 0,5, просто отримайте передбачувані ймовірності, використовуючи predictта обчисліть для кожного, чи більший він від нового порогу.
кон'югатпріор

1
@SassaNF Це правда, що зміна перехоплення може бути компенсоване зміною порогу. Однак це з’єднує вашу оцінку ймовірності (умовиводу) з відносною витратою помилок (функція втрат), тоді як остання може відрізнятися в застосуванні. Наприклад, коли вартість помилки 1 на 0 дорівнює C, ніж витрати на помилку 0 на 1, тоді ви хочете обмежити розрахункову ймовірність у 1 / (1 + С).
кон'югатприор

41

Проблема не в тому, що класи самі по собі незбалансовані, це те, що може бути недостатньо моделей, що належать до класу меншин, щоб адекватно представити його розподіл. Це означає, що проблема може виникнути для будь-якого класифікатора (навіть якщо у вас є синтетична проблема і ви знаєте, що у вас справжня модель), а не лише логістична регресія. Хороша річ у тому, що як більше даних стає, проблема "дисбалансу класів" зазвичай минає. Сказавши це, 4: 1 - це не все так незбалансовано.

Якщо ви використовуєте збалансований набір даних, важливо пам’ятати, що вихід моделі тепер є оцінкою ймовірності a-posteriori, якщо вважати, що класи однаково поширені, і тому ви, можливо, занадто сильно зміните модель. Я зважував би шаблони, що належать до кожного класу, і вибирав б ваги, мінімізуючи перехресну ентропію на тестовому наборі з правильними частотами операційного класу.


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Жубарб

2

Подумайте про основні розподіли двох зразків. Чи є у вас достатньо вибірки для вимірювання обох субгрупп без великої кількості зміщення у меншій вибірці?

Дивіться тут для більш тривалого пояснення.

https://statistichorizons.com/logistic-regression-for-rare-events


5
Схоже, це не відповідає на питання.
Майкл Черник

Це тому, що однозначної відповіді немає! Йдеться про те, як ви його застосовуєте, і кількість упередженості, яку кожен готовий дозволити в процесі оцінки.
Пол Туллох

1
Я думаю, що це чудова відповідь. Наскільки я розумію, всі спроби виправити дисбаланс покладаються на деякі зовнішні знання, не зафіксовані в експерименті. Зокрема, знання корективного розподілу допоможе виправити виправлення.
користувач1700890
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.