Чи використовує децили для пошуку кореляції статистично обгрунтований підхід?


10

У мене є вибірка з 1449 точок даних, які не співвідносяться (r-квадрат 0,006).

Аналізуючи дані, я виявив, що розділяючи значення незалежної змінної на позитивні та негативні групи, здається, є значна різниця в середньому залежної змінної для кожної групи.

Розділяючи точки на 10 бункерів (децилів) за допомогою незалежних змінних значень, схоже, існує сильніша кореляція між числом децилів і середніми залежними значеннями змінної (r-квадрат 0,27).

Я мало знаю про статистику, тому ось кілька питань:

  1. Це дійсний статистичний підхід?
  2. Чи існує спосіб знайти найкращу кількість бункерів?
  3. Який належний термін для цього підходу, щоб я міг його використовувати Google?
  4. Які є вступні ресурси для вивчення цього підходу?
  5. Які ще інші підходи я можу використовувати, щоб знайти зв’язки в цих даних?

Ось децильні дані для довідки: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: Ось зображення даних: Момент індустрії є незалежною змінною, якість точки вступу залежить

Момент індустрії є незалежною змінною, якість точки вступу залежить


Сподіваюсь, моя відповідь (зокрема відповіді 2-4) зрозуміла в тому сенсі, який вона мала на меті.
Glen_b -Встановіть Моніку

Якщо ваша мета полягає у дослідженні форми зв’язку між незалежним та залежним, це прекрасна дослідницька техніка. Це може образити статистиків, але весь час використовується у промисловості (наприклад, кредитний ризик). Якщо ви будуєте модель прогнозування, то інженерія функцій знову в порядку - якщо це зроблено на тренувальному наборі належним чином.
B_Miner

Чи можете ви надати будь-які ресурси щодо того, щоб переконатися, що результат "належним чином підтверджений"?
B Сім

"не співвіднесені (r-квадрат 0,006)" означає, що вони не є лінійно корельованими. Можливо, є якась інша кореляція. Ви побудували графічні дані (залежно від незалежних)?
Еміль Фрідман

Я робив опис даних, але не думав додавати їх до запитання. Яка чудова ідея! Перегляньте оновлене запитання.
B Сім

Відповіді:


9

0. Кореляція (0,0775) невелика, але (статистично) суттєво відрізняється від 0. Тобто, схоже, кореляція дійсно є, вона дуже мала / слабка (рівно, що навколо стосунків багато шуму).

1. Середнє усереднення в бункерах - це зменшення варіацій даних ( σ/nефект для стандартної похибки середнього значення), що означає, що ви штучно завищуєте слабку кореляцію. Дивіться також це (дещо) пов’язане питання .

2. Звичайно, менша кількість бункерів означає, що більше даних стає усередненим, зменшуючи рівень шуму, але чим вони ширші, тим "нечіткіше" середнє стає у кожній відро, оскільки середнє значення не зовсім постійне - є компроміс. Хоча можна отримати формулу для оптимізації кореляції при допущенні лінійності та розподілуxЦе означає, що він не брав би до уваги дещо експлуатований ефект шуму в даних. Найпростіший спосіб - просто спробувати цілу різноманітність різних кордонів, поки ви не отримаєте те, що вам подобається. Не забудьте спробувати змінити ширину та джерело сміття. Ця стратегія може іноді виявлятись напрочуд корисною при щільності , і така різновид випадкових переваг може бути перенесена на функціональні відносини - можливо, дозволяє отримати саме той результат, на який ви сподівалися .

3. Так. Можливо, почніть з цього пошуку , тоді, можливо, спробуйте синоніми.

4. Це гарне місце для початку; це дуже популярна книга, спрямована на нестатистів.

5. (серйозніше :) Я б запропонував розгладити (наприклад, за допомогою місцевої поліноміальної регресії / згладжування ядра) як один із способів дослідження взаємозв'язків. Це залежить саме від того, що ви хочете, але саме це може бути правильним підходом, коли ви не знаєте форми відносин, якщо ви уникаєте проблеми з накопиченням даних.


Є популярна цитата, джерелом якої є Рональд Коуз :

"Якщо ви достатньо катуєте дані, природа завжди зізнається".


Пункти 1 і 2 є хорошими поясненнями того, чому підхід ОП не є дійсним статистичним підходом, хоча є корисним евристичним переконанням щодо пункту 0 (слабка кореляція).
Асад Ебрагім

9

Можливо, ви отримаєте користь від дослідницького інструменту. Розбиття даних на децили координати x, схоже, було виконано саме в цьому дусі. З модифікаціями, описаними нижче, це ідеально чудовий підхід.

Винайдено багато дослідницьких методів. Простий, запропонований Джоном Тукі ( EDA , Аддісон-Веслі 1977), - це його "блукаючий схематичний сюжет". Ви нарізаєте координату x у бункери, споруджуєте вертикальну коробку відповідних даних y на медіані кожного бункера та з'єднуєте ключові частини боксерів (медіани, петлі тощо) у криві (необов'язково їх згладжуючи). Ці «мандрівні сліди» дають уявлення про неоднозначне розподіл даних і дозволяють негайно візуально оцінити кореляцію, лінійність відносин, пережитки та граничні розподіли, а також надійну оцінку та оцінку корисності будь-якої нелінійної регресійної функції .

До цієї ідеї Тукі додав думку, узгоджену з ідеєю boxplot, що хороший спосіб дослідити розподіл даних - почати з середини та працювати назовні, вдвічі зменшивши кількість даних. Тобто, бункери, які потрібно використовувати, не повинні бути розрізані на однаково розташовані квантили, а натомість повинні відображати квантили в точках2k і 12k для k=1,2,3,.

Для відображення різних популяцій сміття ми можемо зробити ширину кожної коробки пропорційною кількості даних, які вона представляє.

Отриманий мандрівний схематичний сюжет виглядав би приблизно так. Дані, розроблені з підсумків даних, відображаються у вигляді сірих крапок на задньому плані. Над цим було намальовано мандрівний схематичний сюжет із п'ятьма кольорами слідів та чорно-білими скриньками (включаючи будь-які відлюдники).

Малюнок

Характер кореляції майже до нуля стає відразу зрозумілим: дані крутяться навколо. Біля їхнього центру, починаючи відx=4 до x=4, вони мають сильну позитивну кореляцію. За крайніх значень ці дані виявляють криволінійні зв’язки, які, як правило, негативні. Чистий коефіцієнт кореляції (що трапляється)0.074для цих даних) близький до нуля. Однак, наполягаючи на тлумаченні того, що як "майже відсутність кореляції" чи "значне, але низьке співвідношення" було б такою ж помилкою, підробленою в старому анекдоті про статистику, який був задоволений головою в духовці та ногами в крижаній коробці, оскільки в середньому середній температура була комфортною. Іноді одне число просто не обійдеться описати ситуацію.

Альтернативні дослідницькі інструменти з подібними цілями включають надійні згладжування віконних квантових даних та підходи квантильних регресій з використанням ряду квантових елементів. З готовністю програмного забезпечення для виконання цих обчислень їх, можливо, стало легше виконати, ніж мандрівний схематичний слід, але вони не користуються однаковою простотою побудови, простотою інтерпретації та широкою застосованістю.


Наведений нижче Rкод отримав фігуру і може бути застосований до вихідних даних з незначною або без змін. (Ігноруйте попередження, викликані bplt(викликаються bxp): воно скаржиться, коли у нього немає чергових людей.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                     n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                     out=b$out[b$group==i],
                     group=1,
                     names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

@EngrStudent Будь ласка, прочитайте текст цієї публікації, перш ніж запустити код. Це попередження згадується та пояснюється.
whuber

Я не беруся на те, звідки цей вектор походить c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6), це генерується і залежить від даних ( x)? Ви згадуєте, 2^*(-k)але це не пов'язано.
Максиміліян

@Max Цей вектор генерує саме цей приклад.
whuber

добре, але як ви обробляли фігури? Це явно неправильно:k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Максиміліян

@Max Я не можу зрозуміти, що ви можете сказати під "явно неправильним". Ви не можете посилатися на мій код: як чек, я повторно запустив його, і він відтворював фігуру в кожній деталі.
whuber

6

Я не вірю, що бінінг - це науковий підхід до проблеми. Це втрачаюча інформація та довільна. Ранкові (порядкові; напівпараметричні) методи набагато кращі і не втрачають інформації. Навіть якби можна було зупинитися на децильному бінінгу, метод все-таки є довільним і невідтворюваним іншими, просто через велику кількість визначень, які використовуються для квантових даних у випадку зв’язків у даних. І як уже згадувалося в коментарі, присвяченому катуванню даних, у Говарда Вайнера є приємний документ, який показує, як знайти бункери, які можуть спричинити позитивну асоціацію, та знайти контейнери, які можуть створити негативну асоціацію, з того ж набору даних:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

Це те, що я підозрював. Якщо ви виберете різну кількість бункерів, ви можете знайти найкраще співвідношення для показу того, що шукаєте. Але результати не були б відтвореними або науково обгрунтованими. Чи знаєте ви якісь вступні ресурси щодо рейтингу?
B Сім

3
Це здається зайвою екстремальною позицією. Звичайно, методи, що базуються на ранзі, також втрачають інформацію: вони відкидають всю інформацію про фактичні значення. Тож питання, чи викликає занепокоєння втрата інформації, зводиться до того, чому проводиться аналіз? Якщо це стосується виявлення та розвідки, різні керовані форми бінінгу можуть зробити гарну роботу, тоді як заміна всього рангів, ймовірно, затьмарить і спотворить відносини. Якщо це підтвердження чи перевірка гіпотез, то ваші зауваження будуть більш загальноприйнятими та захищеними.
whuber

2
Я не дуже з цим згоден. Тип інформації, втраченої методами, що базуються на ранзі, мінімальний (наприклад,π3πу випадку гауссових залишків), і відносно більшої кількості методів, навантажених припущеннями, вони можуть отримати інформацію. Напівпараметричну модель (наприклад, модель пропорційних шансів) не важко використовувати для оцінки середнього та квантового рівняY|X. Втрата інформації майже завжди є поганою річчю, будь то під час дослідження (ви можете пропустити щось важливе) або під час формального аналізу (втрати потужності та точності та довільності).
Френк Харрелл

2

Розбиття даних на децили на основі спостережуваного X ("Якість точки вступу") представляється узагальненням старого методу, спочатку запропонованого Уолдом, а пізніше іншими для ситуацій, коли і X, і Y піддаються помилкам. (Wald розділити дані на дві групи. Nair & Шрівастава і Бартлетта розділити його на три частини .) Він описаний в розділі 5С Розуміння надійної і розвідувального аналізу даних , під редакцією Hoaglin, Мостеллер і Тьюки (Wiley, 1983). Однак з того часу було зроблено багато роботи над такою "Помилка вимірювання" або "Помилка в моделях змінних". Підручники, які я переглянув, - це помилка вимірювання: моделі, методи та програми Джона Буонакорсі (CRC Press,

Ваша ситуація може дещо відрізнятися, оскільки ваш розсіювач приводить мене до підозри, що обидва спостереження є випадковими змінними, і я не знаю, чи містять вони кожну помилку вимірювання. Що представляють змінні?


Якість вхідного пункту - це на скільки запас піднімається або падає за короткий термін у певний момент часу. Індустріальний імпульс - це міра "імпульсу" в галузі для запасів в той же час. Гіпотеза полягає в тому, що існує кореляція між імпульсом галузі та майбутнім ціною акцій.
B Сім

1
Ми зазвичай ставимо відповідь на вертикальну вісь. Візуальний огляд дозволяє припустити, що навіть за наявності реальної кореляції, зміна якості точки введення робить її досить марною. Але оскільки ви маєте справу з цінами на акції, речі стають ще складнішими, оскільки задіяні часові ряди.
Еміль Фрідман

2

Я знайшов пакет localgauss дуже корисним для цього. https://cran.r-project.org/web/packages/localgauss/index.html

Пакет містить

Обчислювальні процедури для оцінки та візуалізації локальних параметрів Гаусса. Локальні параметри Гаусса корисні для характеристики та тестування на нелінійну залежність у межах біваріантних даних.

Приклад:

library(localgauss)
x=rnorm(n=1000)
y=x^2 + rnorm(n=1000)
lgobj = localgauss(x,y)
plot(lgobj)

Результат:

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.