Додавання ваг для сильно перекошених наборів даних при логістичній регресії


9

Я використовую стандартну версію логістичної регресії, щоб підходити мої вхідні змінні до двійкових вихідних змінних.

Однак у моїй проблемі негативні результати (0s) значно перевищують позитивні результати (1s). Співвідношення 20: 1. Тому, коли я треную класифікатор, здається, що навіть функції, які наголошують на можливості позитивного виводу, все ще мають дуже низькі (сильно негативні) значення для відповідних параметрів. Мені здається, що це відбувається тому, що просто занадто багато негативних прикладів, що тягнуть параметри в їх бік.

Тож мені цікаво, чи можна додати ваги (скажімо, використовуючи 20 замість 1) для позитивних прикладів. Чи це взагалі виграє? І якщо так, то як слід додати ваги (у рівняннях нижче).

Функція вартості виглядає наступним чином:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Градієнт цієї функції витрат (wrt ) становить:θ

grad=((h(xθ)y)X)

Тут = кількість тестових випадків, = матриця ознак, = вектор виводу, = сигмоїдна функція, = параметри, які ми намагаємося вивчити.mxyhθ

Нарешті я проводжу спуск градієнта, щоб знайти найменший можливий. Здається, реалізація працює належним чином.J


Привіт, у мене точно та сама проблема, яку ти описав. У моїх даних дуже багато прикладів є негативними, і дуже мало позитивних, і для мене важливіше правильно класифікувати позитив, навіть якщо це означає пропустити класифікацію деяких негативів. Здається, я також застосовую ті самі методи, що і ви, оскільки я використовую ті самі функції витрат та рівняння градієнта. Поки я провів кілька тестів і отримав такі результати: - З 7 параметрами , Розмір вибірки тренувань: 225000 , Розмір вибірки тесту: 75000 Результати: 92% точність , хоча в позитивних випадках лише 11% w
Cartz

1
Те, що ви робите, - плутаєте функцію втрат з максимальною ймовірністю. Невагомі млечні роблять «правильну справу» з інфекційної точки зору і відображають, наскільки рідкісний результат для кожної специфікації коваріату. Ви також можете розлучитися - це станеться, що конкретний набір коваріатів, який може ідеально передбачити реакцію у навчальних даних - це призведе до великих негативних значень.
ймовірністьлогічний

2
Класифікація не є хорошою метою і не є способом розвитку логістичної регресії. Саме поняття класифікації викликає всі перераховані тут проблеми. Дотримуйтесь прогнозованих ймовірностей та правильних правил зарахування точності
Френк Харрелл

1
@arahant Це лише частково правда. Бінарна логістична регресія з посиланням logit все ще діє, оскільки коефіцієнти ваших коваріатів є MLE і відображають вплив цих змінних на шанси класу 1 порівняно з класом 0. Однак у проекті контрольного випадку перехоплення є завжди фіксується, щоб відображати пропорцію класу 1 до класу 0, і цілком справедливо коригувати термін перехоплення для присвоєння класів відповідно до, наприклад, деякої функції витрат на помилкову класифікацію чи іншого процесу, оскільки це не змінює коефіцієнтів на змінні.
Sycorax каже, що повернеться до Моніки

1
Звідки хтось взяв думку про те, що необхідне / бажане / бажане відсічення?
Френк Харрелл

Відповіді:


8

Це більше не буде максимальною ймовірністю. Такий крайній розподіл створює проблеми лише в тому випадку, якщо ви використовуєте класифікатор, тобто якщо ви обчислюєте правильну класифіковану пропорцію, неправильне правило балів. Оцінки ймовірності від стандартної максимальної ймовірності справедливі. Якщо загальна кількість "позитивних" є меншою ніж у 15 разів перевищує кількість змінних кандидатів, можливе пенімізоване оцінювання максимальної ймовірності.Y


Френк, чи є довідка чи щось, що підтверджує вашу деталь "15 разів ..."? У мене є подібний дисбаланс у деяких даних, для яких я використовую логістичну регресію замість методу ROC, яку розробляли інші дослідники. Нещодавно я натрапив на невеликі зразки зміщення та додав у своєму коді / пакеті варіант для зменшення зміщення Фірта як підходящого варіанту. Коли я пишу це для журналу, було б корисно щось посилати на такі бічні правила. Вибачте, якщо посилання є вашою книжкою RMS, оскільки вона сиділа на моїх полицях, але там ще не заглянули.
Гевін Сімпсон

Існують документи про зміщення невеликих зразків та значення Фіртової пені. У мене це не зручно. Відносно 15: 1 див. Biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank

Дякую Френку - питання 15: 1 - це те, про що я найбільше хотів. У мене є кілька публікацій, присвячених невеликій вибірці упередженості та методу Фріта, - але якщо ви зрештою щось подаєте, я буду вдячний, якщо ви дасте мені знати, що це було.
Гевін Сімпсон

3
На всякий випадок, якщо хтось інший повинен неправильно прочитати сказане, як я робив спочатку. 20: 1 у питанні - відношення негативних до позитивних спостережень. У відповіді Френка Гаррелла 15: 1 - це щось інше: відношення позитивних спостережень до незалежних змінних кандидатів.
Адам Бейлі

Екстремальний розподіл також представляє проблему, збільшуючи ймовірність квазіповної розлуки, особливо якщо у вас є категоричні прогнози. Тут допомагає і покарання.
ймовірністьлогічний

3

У таких випадках часто краще використовувати гнучку посилання, а не логістичне посилання, яке може зафіксувати цю асиметрію. Наприклад, косий звичайний, GEV , sinh-arcsinh та посилання на них. Є багато інших, але я не можу розмістити більше 2 посилань.


Чи можете ви надати які-небудь пояснення для інших функцій зв'язку краще?
DW
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.