Графіку малих зразків

13

У мене є невеликий набір даних 14 окремих разів для виконання завдання. Однак у мене виникають труднощі з пошуком відповідного графіка, який використовуватиметься для графіка даних. Якщо вибірка була б більшою, я використовував би графічну скриньку або гістограму, але я не впевнений, чи було б доцільно використовувати в цьому випадку, коли зразок такий малий.

Оновлення: Час - 5,2,3,9,5,6,4,2,3,8,4,1,6,0,5,6,4,4,4,5,4,9,4,5,4,9,4,2

data-visualization descriptive-statistics small-sample

— Еймонн
джерело

4

Нічого не обіцяє, показуючи реальні дані, які вам цікаві, як конкретний приклад для заохочення людей до публікації різних рішень. Заздалегідь пропоную крапки або смужки та квантильні сюжети з накладеною коробкою.

— Нік Кокс

16

Я думаю, що тут основний принцип полягає в тому, що ви можете і маєте показати всі індивідуальні цінності. Навіть якщо деталь не очевидно цікава або корисна, немає підстав не показувати її чи зобов’язувати читача розшифрувати (сказати) гістограму, в якій смужки можуть представляти лише одне або два значення.

Пропоную тут невелику композицію. Зверху ліворуч - крапка або смуга (сюди принаймні двадцять імен використовуються для цієї ж ідеї), представлені горизонтально, а праворуч та сама ідея, представлена вертикально. Екземпляри одного і того ж значення узгоджуються шляхом укладання.

Внизу - квадратична коробка, в розумінні Парцена, в якій мовчазна горизонтальна шкала є кумулятивною ймовірністю (графічне положення, в загальному жаргоні), а звичайне поле медіани та квартілів можна намалювати таким чином, що (в принципі) половина значення знаходяться всередині поля, як завжди рекламується, і половина значень зовні. Додаткова горизонтальна лінія тут позначає середнє значення. Деякі люди додають засоби до графіків коробки як додаткову точку або символ маркера; Я вважаю, що це може зіткнутися із відображенням самих даних, і я вважаю за краще додатковий рядок. Якщо лінія для медіани і лінія для середнього виявилася збігаються, вам потрібно буде подумати, що робити. Майже завжди середня та медіана помітно відрізняються.

Можливо, це стандартно, щоб одиниці вимірювання були явними на графіку, але я не бачу, що вони є.

(Я навмисно підсунув тут додатковий пункт, який полягає в тому, що графіки можуть бути дуже маленькими, але все ще інформативними. На практиці я б не робив їх такими маленькими.)

Редагувати:

Перехресні посилання, додані до сюжетів із квантильною коробкою в значенні Парцена (додаткові посилання в другому нижче; існують інші способи використання "графіків квантильної коробки")

Як я можу виміряти різницю між непараметричними даними багатьма нулями?

Як за допомогою бокс-платок знайти точку, коли значення, швидше за все, надходять з різних умов?

Як візуалізувати незалежний два зразки t-тесту?

Як я можу зрозуміти, який експеримент робить краще за допомогою тесту Манна-Вітні U?

Shera, DM 1991. Деякі способи використання кількісних сюжетів для покращення подання даних. Наука та статистика обчислювальної техніки 23: 50-53.

Militký, J. та M. Meloun. 1993. Деякі графічні посібники для однозначного аналізу даних дослідницької роботи. Analytica Chimica Acta 277: 215-221.

Мелун, М. та Дж. Міліткі. 1994. Комп'ютерне оброблення даних в аналітичній хіміометрії. I. Дослідницький аналіз універсальних даних. Хімічні праці 48: 151-157.

EDIT 2:

Основна суть цих тем - це не просто відповісти на негайне запитання, а торкнутися близько схожих питань, які можуть зацікавити інших.

Деякі інші схеми графіків в інших відповідях тут показують ідентифікатори, агностично позначені 1 ... 14 за відсутності інших деталей. Припускаючи, що ці та інші ідентифікатори були використані в інтерпретації, простою конструкцією для їх відображення є точкова діаграма (Клівленд). Ось дві з декількох можливостей, в яких порядок ідентифікаторів дотримується буквально (зліва) і в яких значення сортуються (праворуч). При необхідності є багато місця для більш довгих етикеток.

Перевагою цієї конструкції перед гістограмами є те, що вісь відгуку чи результату може починатися зі значення, не нульового, якщо це здасться кращим вибором.

Обертання діаграм так, щоб вісь відгуку була вертикальною, теж можна легко уявити.

— Нік Кокс
джерело

(+1) Я інколи бачив крапковий або смуговий сюжет, особливо якщо вертикально орієнтований, з "укладеними" точками центрально вирівняними, а не вирівняними ліворуч (тобто, якщо було три точкові складені точки, то середня повинна відповідати невизначені очки). Це дає лінію симетрії, яка є естетично приємною, але я не впевнений, наскільки це корисно. Можливо, це полегшує накладення коробки. Чи маєте це окреме ім’я, знаєте? І чи була порада уникати / приймати її?

— Срібна рибка

1

Крім того, чи є якийсь шанс, що ви могли б дати посилання на Парзен? Мені завжди подобалися ці сюжети, але ніколи насправді не читав належних посилань на них.

— Срібляста рибка

Варіанти @Silverfish (в центрі), безумовно, популярні і часто обговорюються. Малі питання, здається, є прагненням до симетрії, як ви згадуєте, порівняно з дизайном, що нагадує стиль гістограми, якому я, як правило, віддаю перевагу, але це питання смаку та обставин. Я додав перехресні посилання і, в свою чергу, вітаю інших.

— Нік Кокс

3

@ Nick Cox вже наводив кілька хороших прикладів, два інші варіанти, які я використовую дещо часто, - це графічне поле з накладеними точками або злегка тремтінням,

З кодом R

times<-c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
boxplot(times)
points(rep(1,length(times)),times,cex = 3, pch = 'x')

boxplot(times)
points(jitter(rep(1,length(times)),amount = 0.1),times,cex = 3, pch = 'x')

РЕДАКТУВАННЯ: Ви можете також використовувати сюжет для скрипки, якщо цього хочете

ggplot(data.frame(times), aes(x = rep(0,length(times)), y = times)) + geom_violin() + geom_jitter()

— еонграйл
джерело

1

Дуже дякую за відповідь. Я спочатку неохоче використовував графічні коробки в своїх аналізах через розмір вибірки. Але після перегляду різних підручників здається, що мій зразок є достатнім.

— Еймон

1

Ваше запитання нагадало мені про техніку, описану в цій публікації в блозі . Йдеться про візуалізацію дискретних подій.

Основна хитрість - побудувати the time before an eventх the time after an event.

Ваші дані візуалізуються [1]

Це може бути випадково, але на середній верхній ділянці немає даних. Отже, видно деяку структуру.

Швидкий і брудний Rкод.

data <- c(5.2,3.9,5.6,4.2,3.8,4.1,6.0,5.6,4.4,4.5,4.9,4.5,4.9,4.2)
x=data[1:12]
y=data[2:13]
plot(x,y, col="white", xlab="Time before an event", ylab="Time after an event"  )
for (i in 1:12) {
    text(x[i],y[i], i)
}

— Харальд Томсон
джерело

ОП сказала 14 окремих разів. Я читав, що це означає, що це не серія. Якщо вони є серією, ваша ідея, безумовно, доречна.

— Нік Кокс

Ви, мабуть, праві. Однак, навіть якщо вони НЕ серія, графік буде показувати залежність між часом. Очевидно, мітки осі тоді неправильні.

— Харальд Томсон

2

Тільки ОП може уточнити, що саме є даними, але я не думаю, що цей графік виграє в будь-якому випадку. Якщо дані є окремими, графік є безглуздим, якщо немає значення порядку, в якому задаються значення.

— Нік Кокс

fyi textприймає векторні аргументи - text(x, y, 1:12)має працювати.

— MichaelChirico

1

Ще одна ідея, оскільки ви використовуєте час.

Сюжет іподрому - барплот з полярними координатами - дає такий же ефект, як секундомір:

В ідеалі мітки спостереження накладаються на бруски або хоча б на інший кінець. Зараз у глядача є додаткове напруження відстежувати, яке спостереження є (вгору / вниз) під час будь-яких порівнянь.

— неерайт
джерело

2

Я маю вважати, що як ексцентрик, справді, слід відверто говорити про грамотну техніку. Око бачить навіть не довжину дуги, а область, яку слід розшифрувати як таку, але мозок повинен втручатися і підкреслювати, що лише кут повороту є інформативним. Важко працювати навіть, щоб точно визначити, які значення менші, рівні або більше одне одного, що є негайним у будь-якому прийнятному графічному стилі.

— Нік Кокс

Єдиний плюс, який я можу побачити для цього дизайну, якщо тільки класифікація не відрізняється від незвичного дизайну, - це те, що ідентифікатори №1 до №14 є безпосередніми в цій конструкції. Я підняв це питання в редакції власної відповіді.

— Нік Кокс