Коефіцієнт Джині та межі помилок


11

У мене є часовий ряд даних з N = 14 підрахунків у кожний момент часу, і я хочу обчислити коефіцієнт Джіні та стандартну помилку для цієї оцінки в кожний момент часу.

Так як у мене є лише N = 14 підрахунків у кожній точці часу, я продовжував обчислення дисперсії джек-ножа, тобто з рівняння 7 Томсона Огванга "Зручний метод обчислення індексу Джіні та його" стандартної помилки " . Де - коефіцієнт Джині з N значень без елемента а - середнє значення .var(G)=n1n×k=1n(G(n,k)G¯(n))2G(n,k)kG¯(x)G(n,k)

Безпосередня наївна реалізація вищезазначеної формули для Variance.

calc.Gini.variance <- function(x) {
  N <- length(x)
  # using jacknifing as suggested by Tomson Ogwang - equation 7
  # in the Oxford Bulletin of Economics and Statistics, 62, 1 (2000)
  # ((n-1)/n) \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2
  gini.bar <- Gini(x)

  gini.tmp <- vector(mode='numeric', length=N)
  for (k in 1:N) {
    gini.tmp[k] <- Gini(x[-k])
  }
  gini.bar <- mean(gini.tmp)
  sum((gini.tmp-gini.bar)^2)*(N-1)/N
 }
 calc.Gini.variance(c(1,2,2,3,4,99)) 
 # [1] 0.1696173
 Gini(c(1,2,2,3,4,99))
 # [1] 0.7462462

Це розумний підхід для малого N? Будь-які інші пропозиції?


Можливо, ви можете додати фактичні обчислення, які ви використовуєте як для вибіркової оцінки, так і для стандартної помилки, оскільки багато людей можуть не мати доступу до паперу за наданим посиланням.
кардинал

Відповіді:


5

Однією з проблем буде те, що при такому невеликому розмірі вибірки та складної статистики (коефіцієнт Джині) розподіл ймовірностей вашої статистики точно не буде приблизно нормальним, тому "стандартна помилка" може бути оманливою, якщо ви маєте намір використовувати її для створення інтервалів довіри або тестування гіпотез, спираючись на нормальність.

Я би подумав, що відсотковий завантажувальний апарат буде кращим методом і простішим у виконанні. Наприклад:

> library(reldist) # just for the gini() function
> library(boot) # for the boot() function
> x <- c(1,2,2,3,4,99)
> gini(x)
[1] 0.7462462 # check get same result as in your question
> y <- boot(x, gini, 500)
> quantile(y$t, probs=c(0.025, 0.975))
     2.5%     97.5% 
0.6353158 0.7717868 
> plot(density(y$t))

Я не додав сюжет, згенерований до кінця, але він показує, що довірчий інтервал дуже асиметричний, тому використання методу типу +/- 1,96 * se для довірчого інтервалу буде вводити в оману. Я не прихильник методів жак-ножа за довірчі інтервали переважно з цієї причини; jackknife був винайдений як техніка зменшення ухилу для бальних оцінок, тоді як довірчі інтервали суттєві для всієї ідеї завантажувального пристрою.


Це фактично один із пунктів оригінальної статті - метод розроблений для ~ зняття обчислювального тягаря використання джекніфа для обчислення Джині СЕ. З , навряд чи є якийсь тягар. N=14
MichaelChirico
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.