Можливо, ви отримаєте користь від дослідницького інструменту. Розбиття даних на децили координати x, схоже, було виконано саме в цьому дусі. З модифікаціями, описаними нижче, це ідеально чудовий підхід.
Винайдено багато дослідницьких методів. Простий, запропонований Джоном Тукі ( EDA , Аддісон-Веслі 1977), - це його "блукаючий схематичний сюжет". Ви нарізаєте координату x у бункери, споруджуєте вертикальну коробку відповідних даних y на медіані кожного бункера та з'єднуєте ключові частини боксерів (медіани, петлі тощо) у криві (необов'язково їх згладжуючи). Ці «мандрівні сліди» дають уявлення про неоднозначне розподіл даних і дозволяють негайно візуально оцінити кореляцію, лінійність відносин, пережитки та граничні розподіли, а також надійну оцінку та оцінку корисності будь-якої нелінійної регресійної функції .
До цієї ідеї Тукі додав думку, узгоджену з ідеєю boxplot, що хороший спосіб дослідити розподіл даних - почати з середини та працювати назовні, вдвічі зменшивши кількість даних. Тобто, бункери, які потрібно використовувати, не повинні бути розрізані на однаково розташовані квантили, а натомість повинні відображати квантили в точках2−k і 1−2−k для k=1,2,3,….
Для відображення різних популяцій сміття ми можемо зробити ширину кожної коробки пропорційною кількості даних, які вона представляє.
Отриманий мандрівний схематичний сюжет виглядав би приблизно так. Дані, розроблені з підсумків даних, відображаються у вигляді сірих крапок на задньому плані. Над цим було намальовано мандрівний схематичний сюжет із п'ятьма кольорами слідів та чорно-білими скриньками (включаючи будь-які відлюдники).

Характер кореляції майже до нуля стає відразу зрозумілим: дані крутяться навколо. Біля їхнього центру, починаючи відx=−4 до x=4, вони мають сильну позитивну кореляцію. За крайніх значень ці дані виявляють криволінійні зв’язки, які, як правило, негативні. Чистий коефіцієнт кореляції (що трапляється)−0.074для цих даних) близький до нуля. Однак, наполягаючи на тлумаченні того, що як "майже відсутність кореляції" чи "значне, але низьке співвідношення" було б такою ж помилкою, підробленою в старому анекдоті про статистику, який був задоволений головою в духовці та ногами в крижаній коробці, оскільки в середньому середній температура була комфортною. Іноді одне число просто не обійдеться описати ситуацію.
Альтернативні дослідницькі інструменти з подібними цілями включають надійні згладжування віконних квантових даних та підходи квантильних регресій з використанням ряду квантових елементів. З готовністю програмного забезпечення для виконання цих обчислень їх, можливо, стало легше виконати, ніж мандрівний схематичний слід, але вони не користуються однаковою простотою побудови, простотою інтерпретації та широкою застосованістю.
Наведений нижче Rкод отримав фігуру і може бути застосований до вихідних даних з незначною або без змін. (Ігноруйте попередження, викликані bplt(викликаються bxp): воно скаржиться, коли у нього немає чергових людей.)
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))