Можливо, ви отримаєте користь від дослідницького інструменту. Розбиття даних на децили координати x, схоже, було виконано саме в цьому дусі. З модифікаціями, описаними нижче, це ідеально чудовий підхід.
Винайдено багато дослідницьких методів. Простий, запропонований Джоном Тукі ( EDA , Аддісон-Веслі 1977), - це його "блукаючий схематичний сюжет". Ви нарізаєте координату x у бункери, споруджуєте вертикальну коробку відповідних даних y на медіані кожного бункера та з'єднуєте ключові частини боксерів (медіани, петлі тощо) у криві (необов'язково їх згладжуючи). Ці «мандрівні сліди» дають уявлення про неоднозначне розподіл даних і дозволяють негайно візуально оцінити кореляцію, лінійність відносин, пережитки та граничні розподіли, а також надійну оцінку та оцінку корисності будь-якої нелінійної регресійної функції .
До цієї ідеї Тукі додав думку, узгоджену з ідеєю boxplot, що хороший спосіб дослідити розподіл даних - почати з середини та працювати назовні, вдвічі зменшивши кількість даних. Тобто, бункери, які потрібно використовувати, не повинні бути розрізані на однаково розташовані квантили, а натомість повинні відображати квантили в точках2−k і 1−2−k для k=1,2,3,….
Для відображення різних популяцій сміття ми можемо зробити ширину кожної коробки пропорційною кількості даних, які вона представляє.
Отриманий мандрівний схематичний сюжет виглядав би приблизно так. Дані, розроблені з підсумків даних, відображаються у вигляді сірих крапок на задньому плані. Над цим було намальовано мандрівний схематичний сюжет із п'ятьма кольорами слідів та чорно-білими скриньками (включаючи будь-які відлюдники).
Характер кореляції майже до нуля стає відразу зрозумілим: дані крутяться навколо. Біля їхнього центру, починаючи відx=−4 до x=4, вони мають сильну позитивну кореляцію. За крайніх значень ці дані виявляють криволінійні зв’язки, які, як правило, негативні. Чистий коефіцієнт кореляції (що трапляється)−0.074для цих даних) близький до нуля. Однак, наполягаючи на тлумаченні того, що як "майже відсутність кореляції" чи "значне, але низьке співвідношення" було б такою ж помилкою, підробленою в старому анекдоті про статистику, який був задоволений головою в духовці та ногами в крижаній коробці, оскільки в середньому середній температура була комфортною. Іноді одне число просто не обійдеться описати ситуацію.
Альтернативні дослідницькі інструменти з подібними цілями включають надійні згладжування віконних квантових даних та підходи квантильних регресій з використанням ряду квантових елементів. З готовністю програмного забезпечення для виконання цих обчислень їх, можливо, стало легше виконати, ніж мандрівний схематичний слід, але вони не користуються однаковою простотою побудови, простотою інтерпретації та широкою застосованістю.
Наведений нижче R
код отримав фігуру і може бути застосований до вихідних даних з незначною або без змін. (Ігноруйте попередження, викликані bplt
(викликаються bxp
): воно скаржиться, коли у нього немає чергових людей.)
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))