Як я можу інтерпретувати графік відсоткового обрізання проти обрізаного середнього?


12

У частині запитання домашнього завдання мене попросили обчислити обрізану середню для набору даних, видаливши найменше і найбільше спостереження, та інтерпретувати результат. Обрізана середня була нижчою, ніж середня середня.

Моя інтерпретація полягала в тому, що основний розподіл був позитивно перекошений, тому лівий хвіст щільніше, ніж правий хвіст. В результаті цього перекосу видалення високої дати відтягує середину більше, ніж видалення низької підштовхує її, оскільки, неофіційно кажучи, є більше низьких даних, "які чекають, щоб зайняти своє місце". (Це розумно?)

Тоді я почав цікавитись, як на це впливає відсоток обрізки, тому я обчислював обрізане середнє значення для різних . Я отримав цікаву параболічну форму: x¯tr(k)k=1/n,2/n,,(n21)/nГрафік відсоткового обрізання проти обрізаного середнього;  утворює увігнуту вгору криву, яка виглядає приблизно параболічно

Я не зовсім впевнений, як це трактувати. Інтуїтивно зрозуміло, що нахил графіка повинен бути (пропорційний) негативному косості частини розподілу в точках медіани. (Ця гіпотеза перевіряє мої дані, але у мене є лише , тому я не дуже впевнений.)kn=11

Чи має цей тип графіків назву, чи це звичайно використовується? Яку інформацію ми можемо отримати з цього графіка? Чи є стандартне тлумачення?


Для довідки дані: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

Відповіді:


11

@gung і @kjetil b. Халворсен обидва вірні.

Я знайшов такі графіки в

Розенбергер, Дж. Л. та М. Гасько. 1983. Порівняння оцінок місцеположення: Обрізані засоби, медіани та тримеан. В Розуміння Міцні та розвідувального аналізу даних , ред. DC Hoaglin, F. Mosteller та JW Tukey, 297–338. Нью-Йорк: Вілі.

і

Девісон, AC та Д.В. Хінклі. 1997. Методи завантаження та їх застосування. Кембридж: Кембриджський університетський прес.

та наведіть подальші приклади в

Кокс, Нью-Джерсі. 2013. Обрізка за смаком. Статистичний журнал 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [вільний доступ до pdf]

де обговорювалося багато аспектів підстрижених засобів.

Наскільки мені відомо, граф не має чіткої назви. Виразною назвою для кожного можливого сюжету насправді був би маленький кошмар: графічна термінологія - це вже жахливий безлад. Я б просто назвав це графіком обрізаного середнього по відношенню до скороченого числа, дробу або відсотка (таким чином, перетворюючи формулювання ОП).

Для подальших невеликих коментарів щодо "проти" дивіться мою відповідь у " Гетероседастичність" у "Регресії"

РЕДАКТУВАННЯ: Для отримання детальної інформації про порівняння (лише для мовних мереж) дивіться тут .


10

Я ніколи не чув про цей графік, але думаю, що він досить акуратний; напевно, хтось робив це раніше. Що ви можете зробити з цим, це побачити, як середнє зміщення та / або стабілізація, якщо ви вважаєте, що різні пропорції ваших даних є видатними. Причина того, що ви отримуєте параболічну форму, полягає в тому, що ваш (початковий) розподіл правильно перекошений в цілому, але ступінь перекосу не однаковий у центрі розподілу. Для порівняння розглянемо графіки щільності ядра нижче.

введіть тут опис зображення

Зліва - ваші дані, як вони оброблені одна за одною. Праворуч ці дані: y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416)це квантили стандартного логічного нормального розподілу, взяті з однаково розташованих відсотків і помножені на 20, щоб діапазон значень був подібним.

Ваші дані починають перекошені вправо, але в рядку 5 вони перекидаються ліворуч, тому обрізання більшої кількості даних починає повертати середнє значення. Дані праворуч підтримують аналогічне перекос, як і тривання.

Нижче наведено ваш сюжет для лонормальних даних та рівномірних даних ( z = 1:11, без перекосу - ідеально симетрично).

введіть тут опис зображення введіть тут опис зображення


4

Я не думаю, що такий графік має назву, але те, що ви робите, є розумним, і ваше тлумачення, я думаю, справедливе. Я думаю, що те, що ти робиш, пов'язане з функцією впливу Гампеля, див. Https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, особливо розділ про емпіричну функцію впливу. І ваш сюжет, безумовно, міг би бути пов'язаний з деякою мірою косості даних, оскільки, якби ваші дані були ідеально симетричними, сюжет був би рівним. Ви повинні це дослідити!

            EDIT     

Одне розширення цього сюжету - це також показати ефект використання різної обрізки зліва і справа. Оскільки це не реалізовано у звичайній meanфункції з аргументом trimна R, я написав власну обрізану середню функцію. Щоб отримати більш плавний графік, я використовую лінійну інтерполяцію, коли обрізка дробу передбачає вилучення не цілого числа точок. Це дає функцію:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Потім я імітую деякі дані та показую результат у вигляді контурного графіку:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

даючи такий результат:

контурний графік, що показує ефект обрізки

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.