Чи мають значення коефіцієнти логістичної регресії?


14

У мене є проблема бінарної класифікації з кількох функцій. Чи мають коефіцієнти (регульованої) логістичної регресії інтерпретаційне значення?

Я думав, що вони можуть вказати на розмір впливу, враховуючи, що особливості попередньо нормалізуються. Однак у моїй проблемі коефіцієнти, здається, залежать від особливостей, які я вибираю. Навіть знак коефіцієнтів змінюється різними наборами функцій, вибраними вхідними.

Чи має сенс досліджувати значення коефіцієнтів і який правильний спосіб знайти найбільш змістовні коефіцієнти та констатувати їх значення у словах ? Чи є якісь пристосовані моделі та їх ознака коефіцієнтів помиляються - навіть якщо вони впорядковують дані?

(Найвища кореляція, яку я маю між функціями, становить лише 0,25, але це, безумовно, грає роль?)


Чи можете ви пояснити, що ви маєте на увазі під регуляризованим? Чи є у вас штрафний термін L2, і якщо так, ви шукали оптимальний коефіцієнт, наприклад, шляхом перехресної перевірки?
seanv507

Так, я допускаю штрафні терміни L2 за коефіцієнтами. Я шукав оптимальний коефіцієнт регуляризації, але ще не використовував вибір функції (наприклад, вибірка вперед). Однак це змушує мене відчувати себе невпевнено, оскільки коефіцієнти настільки чуйно залежать від вибору ознак, які я включаю. Якщо припустити, що кожна ознака має позитивний чи негативний вплив позитивного класу, як я можу визначити їх силу та спрямованість?
Геренюк

Відповіді:


14

Коефіцієнти виходу мають значення, хоча це не дуже інтуїтивно для більшості людей, і, звичайно, не для мене. Ось чому люди змінюють їх на коефіцієнт шансів. Однак журнал коефіцієнта шансів - коефіцієнт; еквівалентні коефіцієнти - коефіцієнти шансів.

Коефіцієнти найбільш корисні для включення у формули, які дають передбачувані ймовірності перебування на кожному рівні залежної змінної.

наприклад в R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

Оцінка параметрів для віку становить 1,64. Що це означає? Добре, якщо ви поєднаєте його з оцінкою параметрів для перехоплення (-21.24), ви можете отримати формулу, що передбачає ймовірність виникнення менархе:

П(М)=11+е21.24-1,64аге

але ця формула (навіть із лише однією змінною!) не дає великого розуміння того, як вік пов'язаний з менархе. Якщо ми використовуємо коефіцієнт шансів (який єе1,64=5.16 це означає, що для кожного додаткового року шанси на менархе в 5,16 рази перевищують величину (не точно в 5,16 рази більше, але це інтерпретація часто використовується).


4

Інтерпретувати коефіцієнти безпосередньо важко і може ввести в оману. У вас немає гарантій того, як ваги призначаються серед змінних.

Короткий приклад, аналогічний ситуації, яку ви описуєте: я працював над моделлю взаємодії користувачів з веб-сайтом. Ця модель включала дві змінні, які представляють кількість "клацань" протягом першої години та протягом другої години сеансу користувача. Ці змінні сильно співвідносяться між собою. Якщо обидва коефіцієнта для цієї змінної були позитивними, ми могли б легко ввести себе в оману і вважати, що, можливо, більший коефіцієнт вказує на "більшу" важливість. Однак шляхом додавання / видалення іншихЗмінні ми могли б легко знайти модель, де перша змінна мала позитивний знак, а друга - негативну. Ми обґрунтували те, що оскільки існували значні (хоча і низькі) кореляції між більшістю пар наявних змінних, ми не могли зробити жодного надійного висновку щодо важливості змінних за допомогою коефіцієнтів (із задоволенням дізнаємося від спільноти, якщо це тлумачення правильне).

Якщо ви хочете отримати модель, де інтерпретувати щось легше, було б використовувати Lasso (мінімізація норми L1). Це призводить до розріджених рішень: змінні менше співвідносяться між собою. Однак такий підхід не міг би легко вибрати обидві змінні попереднього прикладу - одна була б нульовою.

Якщо ви просто хочете оцінити важливість конкретних змінних або наборів змінних, я рекомендую безпосередньо використовувати якийсь підхід до вибору функцій. Такі підходи призводять до набагато більш значущого розуміння та навіть глобального рейтингу важливості змінних на основі якогось критерію.


0

Коефіцієнти, безумовно, мають значення. У деяких програмних пакетах модель може бути спрямована будь-яким з двох способів отримання будь-якого з двох типів коефіцієнтів. Наприклад, в Stata можна використовувати або команду Logistic, або команду logit; використовуючи один, модель дає традиційні коефіцієнти, а при використанні іншого дає коефіцієнти шансів.

Ви можете виявити, що один для вас набагато більш значимий, ніж інший.

Щодо вашого питання, що "... коефіцієнти, здається, залежать від чутливості ...".

Ви хочете сказати, що результати залежать від змінних, які ви вводите в модель?

Якщо так, так, це факт життя, коли робите регресійний аналіз. Причиною цього є те, що регресійний аналіз розглядає купу чисел і стискає їх автоматизованим способом.

Результати залежать від того, як змінні пов'язані між собою та від того, які змінні не вимірюються. Це стільки мистецтво, скільки і наука.

Крім того, якщо модель має занадто багато предикторів порівняно з розміром вибірки, знаки можуть розвертатися божевільно - я вважаю, що це говорить про те, що модель використовує змінні, які мають невеликий ефект для "коригування" її оцінок які мають великий ефект (як маленька ручка гучності для невеликих калібрування). Коли це відбувається, я схильний не довіряти змінним з малими ефектами.

З іншого боку, можливо, що ознаки спочатку змінюються, коли ви додаєте нові прогнози, оскільки ви наближаєтесь до причинної істини.

Наприклад, давайте собі уявити, що гренландський бренді може бути поганим для здоров’я, але дохід хороший для здоров’я. Якщо дохід опущений, і більш багаті люди п'ють бренді, то модель може "підібрати" вплив пропущеного доходу і "сказати", що алкоголь корисний для вашого здоров'я.

Не сумнівайтеся в цьому, це факт життя, що коефіцієнти залежать від інших змінних, які включені. Щоб дізнатися більше, вивчіть "пропущені змінні зміщення" та "помилкові відносини". Якщо ви раніше не стикалися з цими ідеями, спробуйте знайти знайомство з курсами статистики, які відповідають вашим потребам - це може призвести до величезних змін у виконанні моделей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.