Обидва способи покладаються на одну і ту ж ідею розкладання спостережуваної дисперсії на різні частини або компоненти. Однак існують тонкі відмінності в тому, чи ми вважаємо предмети та / або рейтинги фіксованими або випадковими ефектами. Крім того, що сказати, яка частина загальної мінливості пояснюється між коефіцієнтом (або наскільки відмінність відхиляється від залишкової дисперсії), F-тест не говорить багато. Принаймні, це стосується односторонньої ANOVA, де ми беремо на себе фіксований ефект (і який відповідає ICC (1,1), описаному нижче). З іншого боку, ICC забезпечує обмежений індекс при оцінці надійності рейтингу кількох "обмінних" рейтингів або однорідності між аналітичними одиницями.
Зазвичай ми робимо наступне розмежування між різними видами МКК. Це випливає з напівельної роботи Плащаниці та Флісса (1979):
- Одностороння модель випадкових ефектів , ICC (1,1): кожен предмет оцінюється різними рейтингами, які вважаються вибіркою з більшого пула потенційних рейтингів, отже, вони розглядаються як випадкові ефекти; Потім ICC інтерпретується як% від загальної дисперсії, що припадає на дисперсію предметів / предметів. Це називається ICC консистенції.
- Двостороння модель випадкових ефектів , ICC (2,1): обидва фактори - рейтинги та предмети / предмети - розглядаються як випадкові ефекти, і ми маємо дві компоненти дисперсії (або середні квадрати) на додаток до залишкової дисперсії; ми також припускаємо, що ратери оцінюють усі предмети / предмети; ICC надає в цьому випадку відсоток відхилення, який можна віднести до рейтингів + предметів / предметів.
- Двостороння змішана модель , ICC (3,1): всупереч односторонньому підходу, тут рейтинги розглядаються як фіксовані ефекти (відсутність узагальнення за межами вибірки), але предмети / предмети трактуються як випадкові ефекти; одиницею аналізу може бути індивідуальна або середня оцінка.
Це відповідає випадкам від 1 до 3 у таблиці 1. Додаткове розмежування можна зробити залежно від того, чи вважаємо ми, що спостережувані рейтинги є середніми за кілька оцінок (вони називаються ICC (1, k), ICC (2, k), і ICC (3, k)) чи ні.
Підсумовуючи, ви повинні вибрати правильну модель (одностороння проти двостороння), і це багато в чому обговорюється в статті Шрута та Флісса. Одностороння модель, як правило, дає менші значення, ніж двостороння модель; аналогічно, модель з випадковими ефектами, як правило, дає менші значення, ніж модель з фіксованими ефектами. ICC, отриманий із моделі з фіксованими ефектами, розглядається як спосіб оцінки послідовності рейтингів (оскільки ми ігноруємо відхилення від рейтингів), тоді як для моделі випадкових ефектів ми говоримо про оцінку узгодження рейтингів (чи є рейтинги взаємозамінними чи ні). Лише двосторонні моделі містять взаємодію предмета rater x, що може бути цікавим при спробі розгадати нетипові моделі оцінювання.
На наведеному нижче малюнку легко копія / вставити приклад з ICC()
в психологічно пакеті (дані з Shrout і Fleiss, 1979). Дані складаються з 4 суддів (J), які оцінюють 6 предметів або цілей (S), і підсумовуються нижче (я вважаю, що вони зберігаються у вигляді матриці R з назвою sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Цей приклад цікавий тим, що показує, як вибір моделі може впливати на результати, тому інтерпретація дослідження надійності. Усі 6 моделей ICC наступні (це Таблиця 4 у папері Шрута та Флісса)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Як видно, розгляд рейтингів як фіксованих ефектів (отже, не намагання узагальнити ширший пул рейтингів) дало б набагато більшу цінність для однорідності вимірювання. (Аналогічні результати можна отримати з пакетом irr ( icc()
), хоча ми маємо грати з різними параметрами для типу моделі та одиниці аналізу.)
Що нам підказує підхід ANOVA? Нам потрібно встановити дві моделі, щоб отримати відповідні середні квадрати:
- одностороння модель, яка розглядає лише предмет; це дозволяє розділити цілі, що оцінюються (між групами MS, BMS) та отримати оцінку терміну "помилки" (WMS)
- двостороння модель, яка враховує суб'єкт + рейтинг + їх взаємодію (коли не буде реплікацій, останній термін буде плутати з залишками); це дозволяє оцінити основний ефект ратера (JMS), який можна врахувати, якщо ми хочемо використовувати модель випадкових ефектів (тобто додамо його до загальної змінності)
Не потрібно дивитися на F-тест, тут цікавлять лише МС.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Тепер ми можемо зібрати різні фрагменти у розширеній таблиці ANOVA, яка виглядає як показана нижче (це Таблиця 3 у папері Плаття та Флісса):
(джерело: mathurl.com )
де перші два ряди походять від односторонньої моделі, тоді як наступні два - від двосторонньої ANOVA.
Легко перевірити всі формули у статті Шрута та Флісса, і у нас є все, що потрібно для оцінки надійності для однієї оцінки . Як щодо надійності середнього показника для декількох оцінок (що часто викликає зацікавленість у міжрейтингових дослідженнях)? Слідом за Хейсом і Ревіккі (2005), це можна отримати з вищезазначеного розкладання, просто змінивши загальний МС, що розглядається в знаменнику, за винятком двосторонньої моделі випадкових ефектів, для якої нам доведеться переписати відношення МС.
- У разі ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), загальна надійність обчислюється як (BMS-WMS) /BMS=0.443.
- Для ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) загальна надійність становить (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
- Нарешті, для ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) ми маємо надійність (BMS-EMS) /BMS=0.909.
Знову ж таки, ми виявляємо, що загальна надійність вища, якщо розглядати рейтингів як фіксовані ефекти.
Список літератури
- Shrout, PE та Fleiss, JL (1979). Внутрішньокласні кореляції: Використання для оцінки надійності рейтингу . Психологічний вісник , 86, 420-3428.
- Hays, RD та Revicki, D. (2005). Надійність та обґрунтованість (включаючи чуйність). In Fayers, P. and Hays, RD (ред.), Оцінка якості життя в клінічних випробуваннях , 2-е видання, с. 25-39. Oxford University Press.