Що є відповідним графіком для ілюстрації зв’язку між двома порядковими змінними?
Я можу придумати кілька варіантів:
- Графік розсіювання з доданим випадковим тремтінням, щоб зупиняти точки, приховуючи один одного. Мабуть, стандартна графіка - Minitab називає це "індивідуальним графіком значень". На мою думку, це може ввести в оману, оскільки візуально заохочує своєрідну лінійну інтерполяцію між порядковими рівнями, як би дані були з інтервальної шкали.
- Діаграма розсіювання адаптована таким чином, що розмір (площа) точки представляє частоту цієї комбінації рівнів, а не малювання однієї точки для кожної одиниці вибірки. Я періодично бачив такі сюжети на практиці. Їх важко читати, але точки лежать на регулярно розташованій решітці, яка дещо переборює критику розрізненого розсіяного сюжету, що він візуально "інтервалізує" дані.
- Особливо, якщо одна із змінних трактується як залежна, графік вікна, згрупований за рівнями незалежної змінної. Ймовірно, це виглядатиме жахливо, якщо кількість рівнів залежної змінної не є достатньо високою (дуже "плоскою" з відсутніми вусами або ще гіршими згортаннями квартілів, що робить візуальну ідентифікацію медіани неможливою), але, принаймні, звертає увагу на медіану та квартілі, які є відповідна описова статистика для порядкової змінної.
- Таблиця значень або порожня сітка комірок з тепловою картою для позначення частоти. Візуально відрізняється, але концептуально схожий на графік розсіювання з точковою площею, що показує частоту.
Чи є інші ідеї чи думки щодо того, які сюжети є кращими? Чи є сфери досліджень, в яких певні порядкові та порядкові сюжети вважаються стандартними? (Здається, я пам'ятаю, що частотна теплова карта є широко поширеною в геноміці, але підозрюю, що це частіше для номіналу проти номіналу.) Пропозиції щодо хорошої стандартної посилання також будуть дуже вітаються, я здогадуюсь про щось із Agresti.
Якщо хтось хоче проілюструвати сюжет, наступним є код R для хибних зразкових даних.
"Наскільки важлива вправа для вас?" 1 = зовсім не важливо, 2 = дещо неважливо, 3 = ні важливо, ні неважливо, 4 = дещо важливо, 5 = дуже важливо.
"Як регулярно ви робите пробіжку 10 хвилин або довше?" 1 = ніколи, 2 = рідше одного разу на два тижні, 3 = раз на один-два тижні, 4 = два-три рази на тиждень, 5 = чотири і більше разів на тиждень.
Якщо було б природно трактувати "часто" як залежну змінну, а "важливість" - як незалежну змінну, якщо сюжет відрізняє обидві.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Питання, що стосуються безперервних змінних, мені здається корисним, можливо, корисним початком: Які є альтернативи розсіювачам при вивченні взаємозв'язку між двома числовими змінними?