Який найкращий спосіб візуалізувати зв’язок між дискретними та безперервними змінними?


19

Який найкращий спосіб виявити зв’язок між:

  • безперервна і дискретна змінна,
  • дві дискретні змінні?

Поки я використовував схеми розкидання, щоб переглянути зв'язок між безперервними змінними. Однак у випадку дискретних змінних бали даних накопичуються через певні інтервали. Таким чином, лінія найкращого пристосування може бути упередженою.


4
Для дискретно-дискретного випадку ця відповідь на дещо пов'язане тут питання щодо побудови впорядкованих категоричних даних може допомогти (хоча, можливо, без скриньок у вашому випадку). Я дійсно не впевнений, як ви думаєте, як виникає така «упередженість»; це вплине на візуальне враження точок даних (приводячи до використання очікуючи, що лінія перейде кудись інше, ніж слід), але не на самі фактичні дані. Чи можете ви пояснити свої міркування тут?
Glen_b -Встановіть Моніку

Відповіді:


26

Нижче: Початковий сюжет може вводити в оману, оскільки дискретний характер змінних змушує точки перекриватись:

введіть тут опис зображення

Один із способів обійти це - ввести деяку прозорість символу даних:

введіть тут опис зображення

Інший спосіб - м'яко змістити розташування символу, щоб створити мазок. Ця методика називається "тремтіння:"

введіть тут опис зображення

Обидва рішення все одно дозволять вам встановити пряму лінію для оцінки лінійності.

Код R для довідки:

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
Гарна відповідь. А як щодо графіків розсіювання бульбашок із змінним числом екземплярів? Я спробував використовувати ці методи на масивному наборі даних, і все це зайняло занадто багато часу, щоб відобразити альфа.
Джош

14

Я б використав boxplots для відображення зв’язку між дискретною і безперервною змінною. Ви можете зробити коробку вертикальних або горизонтальних за допомогою стандартного статистичного програмного забезпечення, так що це легко візуалізувати як IV або DV. Це є можливим використовувати діаграму розсіювання з дискретним і безперервним змінної, просто привласнити номер дискретної змінної (наприклад, 1 і 2), і джиттера ці значення (примітка верхню ділянку на право тут ).

Що стосується Вашого коментаря, що лінія найкращого пристосування може бути упередженою, це залежить від того, що у вас є. Наприклад, якщо у вас є дискретна змінна з двома рівнями як ваш IV, і безперервна змінна як DV, ви можете провести лінію за допомогою двох засобів, і це не буде упередженим. (Ми зазвичай вважаємо, що ця ситуація є придатною для t-тесту, але насправді це форма - тобто простий випадок - регресії, дивіться мою відповідь тут .) З іншого боку, якщо у вас є дискретний змінна з двома рівнями, як ваша DV, стандартна (OLS) регресія була б невідповідною (закликалася б логістична регресія), а лінія найкращого підходу була б упереджена, але ви могли б встановити (і побудувати) лінію низького рівня як частину початкової дослідження даних.

Для візуалізації взаємозв'язку між двома дискретними змінними я використовував би мозаїчний сюжет . Ви також можете використовувати ситову ділянку , графік асоціації або графік динамічного тиску з деяким програмуванням.


8

При розгляді питання про взаємозв'язок між двійковим змінними результатами і безперервним предиктором, Я хотів би використовувати лесовий Smoother (з викидом виявлення вимкнено, наприклад, в R lowess(x, y, iter=0).

У наступному випуску Hmiscпакету R ви можете легко створити єдину latticeграфіку, яка розміщує такі криві в мультипанельному дисплеї для декількох предикторів, наприклад

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

Якщо вас не влаштовують прості графіки розсіювання, ви можете додати частоти точок даних при кожному значенні дискретної змінної. Як це зробити, то просто залежить від статистичної програми, яку ви використовуєте. Ось приклад для Stata. Ви також можете застосувати це до діаграми розсіювання двох категоричних змінних. Інакше графік поля або накладені смугові діаграми можуть бути добре, але це дійсно залежить від того, як ви хочете представити ці змінні.


1

Я знайшов документ, застосовний до асоціації між двома бінарними змінними на http://www.boekboek.com/xb130929113026 - тут, у цій статті, показано та доведено, що сила асоціації між двома бінарними змінними може бути виражена у вигляді частки ідеальна асоціація. Тож стає можливим і кращим констатувати: асоціація між змінною A і змінною B становить, наприклад, 50% замість того, що вона одночасно заявляє: OR = 9 (непросто інтерпретувати) або реального ризику = 2 (сучасний ризик вважається відносним теж є мірилом асоціації, хоча насправді це функція асоціації, поширеності чи частоти та позитивності).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.