Який найкращий спосіб візуалізувати ефекти категорій та їх поширеність у логістичній регресії?


11

Мені потрібно представити інформацію про основні прогнози голосів кандидата, використовуючи дані опитування громадської думки. Я здійснив логістичну регресію, використовуючи всі змінні, які мене цікавлять, але я не можу знайти хороший спосіб представити цю інформацію.

Мій клієнт дбає не лише про розмір ефекту, а про взаємодію між величиною ефекту та чисельністю населення з таким атрибутом.

Як я можу впоратися з цим у графі? Будь-які пропозиції?

Ось приклад:

змінної підлогу (чоловічий = 1) , коли в якості залежної змінної є ГОЛОСУЕМ / Не в якості кандидата становить 2,3, що велике число після того , як експоненціруется і обробляли як відношення шансів або ймовірності. Однак у суспільстві, в якому проводилося це опитування, було лише 30% чоловіків. Тому, хоч людина досить багато підтримувала цього кандидата, їх кількість є незначною для кандидата, який намагається виграти мажоритарні вибори.β


FWIW, використання терміна "взаємодія" є неправильним (див., Наприклад, тут або тут ). Я б сказав щось на кшталт "... але про визначення ситуацій, коли розмір ефекту великий, а чисельність населення з таким атрибутом також велика".
gung - Відновіть Моніку

Відповіді:


10

Я погоджуюся з @PeterFlom, що приклад дивний, але, відкладаючи це, я помічаю, що пояснювальна змінна є категоричною. Якщо це постійно вірно, це значно спрощує це. Я б використав мозаїчні сюжети, щоб представити ці ефекти. Ділянка мозаїки відображає умовні пропорції вертикально, але ширина кожної категорії масштабується відносно її граничної (тобто безумовної) пропорції у вибірці.

Ось приклад із даними катастрофи "Титанік", створеними за допомогою R:

data(Titanic)

sex.table   = margin.table(Titanic, margin=c(2,4))
class.table = margin.table(Titanic, margin=c(1,4))
round(prop.table(t(sex.table), margin=2), digits=3)
#          Sex
# Survived  Male Female
#      No  0.788  0.268
#      Yes 0.212  0.732
round(prop.table(t(class.table), margin=2), digits=3)
#           Class
# Survived   1st   2nd   3rd  Crew
#      No  0.375 0.586 0.748 0.760
#      Yes 0.625 0.414 0.252 0.240

windows(height=3, width=6)
  par(mai=c(.5,.4,.1,0), mfrow=c(1,2))
  mosaicplot(sex.table,   main="")
  mosaicplot(class.table, main="")

введіть тут опис зображення

Ліворуч ми бачимо, що жінки набагато частіше виживали, але чоловіки складали, можливо, близько 80% людей на борту. Таким чином, збільшення відсотка тих, хто вижив чоловіків, означало б набагато більше врятованих життів, ніж навіть більший приріст відсотків тих, хто вижив. Це дещо аналогічно вашому прикладу. Праворуч є інший приклад, коли екіпаж та керування складали найбільшу частку людей, але мали найменшу ймовірність вижити. (Для чого це варто, це не повний аналіз цих даних, оскільки клас і стать також були незалежними від "Титаніка", але цього достатньо, щоб проілюструвати ідеї цього питання.)


5

Мені трохи цікаво, що в суспільстві було лише 10% чоловіків ... але ...

Одне, що ви можете зробити, - це скласти коефіцієнт шансів і позначити кожен розміром вибірки.

Якщо ви хочете, щоб обидві змінні були представлені графічно, ви можете скласти бульбашкову діаграму, при цьому положення кожного міхура на осі y відповідає розміру коефіцієнта шансів і площі міхура, пропорційному розміру вибірки.


7
Можливо, цей .
Андре Сільва
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.