Обчислення дисперсії Копа Коена (та стандартні помилки)


44

Статистика Kappa ( ) була введена в 1960 році Коеном [1] для вимірювання згоди між двома рейтинговими. Однак його розбіжність була джерелом суперечностей досить довгий час.κ

Моє запитання про те, який найкращий дисперсійний розрахунок використовувати для великих зразків. Я схильний вважати, що тестований та перевірений Фліссом [2] був би правильним вибором, але, здається, це не єдиний опублікований, який видається правильним (і використовується в досить недавній літературі).

Зараз у мене є два конкретні способи обчислити його велику асимптотичну дисперсію вибірки:

  • Виправлений метод, опублікований Фліссом, Коеном та Еверіттом [2];
  • Дельта-метод, який можна знайти в книзі Колґтона, 2009 р. [4] (стор. 106).

Щоб проілюструвати деяку частину цієї плутанини, ось цитата Флісса, Коена та Еверітта [2], наголос на моєму:

Багато людських зусиль прокляли неодноразовими невдачами до досягнення остаточного успіху. Масштабування гори Еверест - один із прикладів. Відкриття Північно-Західного проходу - секунда. Виведення правильної стандартної помилки для kappa - третя частина .

Отже, ось короткий підсумок того, що сталося:

  • 1960: Коен публікує свою працю «Коефіцієнт узгодження номінальних шкал» [1], вводячи свою коригувану випадковою мірою погодження двох рейтингів під назвою . Однак він публікує неправильні формули для дисперсійних обчислень.κ
  • 1968: Еверіт намагається їх виправити, але його формули також були невірними.
  • 1969: Фліс, Коен та Еверіт публікують правильні формули у статті "Великі зразки стандартних помилок каппи та зваженої каппи" [2].
  • 1971: Флісс публікує іншу статистику (але іншу) під тим же найменуванням, з неправильними формулами для варіацій.κ
  • 1979 рік: Флісс Ні і Ландіс публікують виправлені формули для Флісса .κ

Спочатку розглянемо наступні позначення. Це позначення передбачає, що оператор підсумовування повинен застосовуватися до всіх елементів у вимірі, над яким розміщується крапка:

   pi.=j=1kpij    p.j=i=1kpij

Тепер Kappa можна обчислити так:

   κ^=popc1pe

В якій

   po=i=1kpii - це дотримана згода, і

   pc=i=1kpi.p.i - це випадкова угода.

Поки що правильний розрахунок дисперсії для Коена задається:κ

   var^(κ^)=1N(1pc)4{i=1kpii[(1po)(p.i+pi.)(1po)]2   +(1po)2i=1kj=1ijkpij(p.i+pj.)2(popc2pc+po)2}

і під нульовою гіпотезою це задано:

   var^(κ^)=1N(1pc)2{i=1kp.ipi.[1(p.i+pi.)2]+i=1kj=1,ijkp.ipj.(p.i+pj.)2pc2}

Метод Конгалтона, здається, заснований на дельта-методі отримання варіацій (Agresti, 1990; Agresti, 2002); однак я не впевнений, що таке метод дельти або чому його потрібно використовувати. Варіант за цим методом задається:κ

   var^(κ^)=1n{θ1(1θ1)(1θ2)2+2(1θ1)(2θ1θ2θ3)(1θ2)3+(1θ1)2(θ44θ22)(1θ2)4}

в якій

   θ1=1ni=1knii

   θ2=1n2i=1kni+n+i

   θ3=1n2i=1knii(ni++n+i)

   θ4=1n3i=1kj=1knij(nj++n+i)2

(Конгалтон використовує індекс, а не а , Але це, мабуть, означає те саме. Крім того, я припускаю, що має бути матрицею підрахунку, тобто матриці плутанини, перш ніж ділитися на кількість зразків як пов'язані формулою )+.nijpij=nijsamples

Інша дивна частина полягає в тому, що книга Колгатона, здається, посилається на оригінальний документ Коена, але, схоже, не цитує виправлень до дисперсії Каппи, опублікованої Флісс та ін., Поки він не продовжує обговорювати зважений Каппа. Можливо, його перша публікація була написана тоді, коли справжня формула каппа все ще втрачала в замішанні?

Хтось може пояснити, чому ці відмінності? Або чому хтось використовуватиме дисперсію методу дельта замість виправленої версії Флеїс?

[1]: Фліс, Джозеф Л.; Коен, Яків; Everitt, BS; Великі вибіркові стандартні похибки kappa та зваженої kappa. Психологічний вісник, т. 72 (5), листопад 1969, 323-327. doi: 10.1037 / h0028106

[2]: Коен, Джейкоб (1960). Коефіцієнт узгодження номінальних шкал. Навчально-психологічний вимір 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Алан Агресті, категоричний аналіз даних, 2-е видання. Джон Вілей і сини, 2002.

[4]: Рассел Г. Конгалтон і Грін, К .; Оцінка точності даних дистанційно: принципи та практики, 2-е видання. 2009 рік.


деякі ваші дужки вимкнено, чи можете ви їх виправити? Крім того, ви можете відформатувати вкладені дужки як {[(x + y) ^ z + a] ^ b - c}, щоб зробити їх більш читабельними.
Стаск

також, будь ласка, наведіть і альтернативні еквівалентні рецептури, якщо вони існують. Залежно від конкретних альтернативних рецептур, вирази дисперсії можуть бути легшими. (Я маю на увазі індекс Джині, для якого існує п'ять або близько того формулювань для iid-даних, які передбачають абсолютно різні оцінки дисперсії для складних даних опитування.)κ
Стаск

Дякуємо за відгук. Я виправив формули та додав, як обчислюється Kappa. Рецептура Kappa здається послідовною у всій літературі, лише її відмінність не відповідає.
Сезар

1
До речі, я щойно помітив, що видається помилкою друку в книзі Колґтона: він визначає , але це з нізвідки. Я припускаю, що це означало , інакше я не впевнений, що це має багато сенсу. pc=i=1kpi+p+jjpc=i=1kpi+p+i
Сезар

2
Я можу принаймні дати вам руку з цією частиною: "Я не впевнений у тому, що таке метод дельти" - en.wikipedia.org/wiki/Delta_method, а відхилення там походить звідси
Glen_b

Відповіді:


7

Я не знаю, який із двох способів обчислити дисперсію слід віддати перевагу, але я можу дати вам третій, практичний і корисний спосіб обчислити довірчі / достовірні інтервали, використовуючи байєсівську оцінку каппи Коена.

Код R та JAGS нижче генерує зразки MCMC із заднього розподілу достовірних значень Kappa за даними даних.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

На графіку нижче представлений графік щільності зразків MCMC від заднього розподілу Kappa.

Задня щільність каппи

Використовуючи зразки MCMC, ми тепер можемо використовувати медіанне значення як оцінку Kappa і використовувати 2,5% та 97,5% квантили як інтервал достовірності / достовірності 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890 

Порівняйте це з "класичними" оцінками, розрахованими за Фліссом, Коеном та Еверіттом:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Особисто я вважаю за краще інтервал довіри Баєса над класичним довірчим інтервалом, тим більше, що я вважаю, що байєсівський інтервал довіри має кращі властивості вибірки. Загальною проблемою, з якою люди мають байєсівські аналізи, є те, що вам потрібно вказати попередні переконання щодо розподілу параметрів. На щастя, в цьому випадку побудувати "об'єктивні" пріори легко, просто встановивши рівномірні розподіли за всіма параметрами. Це повинно зробити результат байєсівської моделі дуже подібним до "класичного" обчислення коефіцієнта Каппи.

Список літератури

Санджіб Басу, Мусумі Банерджі та Ананда Сен (2000). Байєсівські умовиводи для каппи з одиничних та множинних досліджень. Біометрія , Вип. 56, № 2 (черв. 2000 р.), Стор 577-582


Чи знаєте ви, чи існує розширення цього питання на більш ніж два рейтинги?
Фоміт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.