Коефіцієнт внутрішньокласової кореляції та F-тест (одностороння ANOVA)?


10

Я трохи розгублений щодо коефіцієнта внутрішньокласової кореляції та однобічної ANOVA. Як я розумію, обидва кажуть вам, наскільки схожі спостереження в межах групи, відносно спостережень в інших групах.

Чи може хтось пояснити це трохи краще і, можливо, пояснити ситуацію, в якій кожен метод є більш вигідним?


Будь ласка, знайдіть час, щоб переглянути теги надійності та міжрейтингових тегів. ICC базується на таблиці ANOVA, але ідея полягає лише в аналізі компонентів дисперсії, а не в створенні єдиної статистики тесту з розподільними властивостями нотаток, як F-тест. Яку програму ви маєте на увазі?
chl

@chl Я хочу проаналізувати окремі бали для згрупованих даних. Я бачив декілька робіт, що вивчають різницю між оцінками батьків та дітей, використовуючи ICC, щоб визначити, чи є значна різниця у відповідях батьків проти дітей. Я думаю, що ICC - це те, чого я хочу тут, але, як я вже згадував, я не розумію різниці між ними. Я не вагаюся запитати більше, але чи знаєте ви якісь хороші (основні) посилання? Моя статистика зупинилася на лінійній регресії, і мені здається, що я задаю питання, які не сформульовані добре. Дякую.
блеп

Схоже, у вас є парні дані. Розглядаючи окремі групи (батьки та їхні діти) та використовуючи ICC для звітування про надійність балів, ви викинете частину інформації, тобто чи оцінювання батьків та їхнього відносного діятиме послідовно. Ваші два ICC скажуть вам лише, чи обидві серії балів, які вважаються незалежними, "надійні", в тому сенсі, що значна частина дисперсії може бути пов'язана з ефектом рейтингу. (...)
chl

(...) Підсумовуючи, якщо ви хочете показати, що батьківські оцінки надійніші за дитячі, то використання ICC прекрасно; якщо, з іншого боку, ви хочете вивчити, як батьківські рейтинги стосуються рейтингів дітей, то ви можете вдатися до іншого виду аналізу (саме до аналізу діадичних даних).
chl

Відповіді:


17

Обидва способи покладаються на одну і ту ж ідею розкладання спостережуваної дисперсії на різні частини або компоненти. Однак існують тонкі відмінності в тому, чи ми вважаємо предмети та / або рейтинги фіксованими або випадковими ефектами. Крім того, що сказати, яка частина загальної мінливості пояснюється між коефіцієнтом (або наскільки відмінність відхиляється від залишкової дисперсії), F-тест не говорить багато. Принаймні, це стосується односторонньої ANOVA, де ми беремо на себе фіксований ефект (і який відповідає ICC (1,1), описаному нижче). З іншого боку, ICC забезпечує обмежений індекс при оцінці надійності рейтингу кількох "обмінних" рейтингів або однорідності між аналітичними одиницями.

Зазвичай ми робимо наступне розмежування між різними видами МКК. Це випливає з напівельної роботи Плащаниці та Флісса (1979):

  • Одностороння модель випадкових ефектів , ICC (1,1): кожен предмет оцінюється різними рейтингами, які вважаються вибіркою з більшого пула потенційних рейтингів, отже, вони розглядаються як випадкові ефекти; Потім ICC інтерпретується як% від загальної дисперсії, що припадає на дисперсію предметів / предметів. Це називається ICC консистенції.
  • Двостороння модель випадкових ефектів , ICC (2,1): обидва фактори - рейтинги та предмети / предмети - розглядаються як випадкові ефекти, і ми маємо дві компоненти дисперсії (або середні квадрати) на додаток до залишкової дисперсії; ми також припускаємо, що ратери оцінюють усі предмети / предмети; ICC надає в цьому випадку відсоток відхилення, який можна віднести до рейтингів + предметів / предметів.
  • Двостороння змішана модель , ICC (3,1): всупереч односторонньому підходу, тут рейтинги розглядаються як фіксовані ефекти (відсутність узагальнення за межами вибірки), але предмети / предмети трактуються як випадкові ефекти; одиницею аналізу може бути індивідуальна або середня оцінка.

Це відповідає випадкам від 1 до 3 у таблиці 1. Додаткове розмежування можна зробити залежно від того, чи вважаємо ми, що спостережувані рейтинги є середніми за кілька оцінок (вони називаються ICC (1, k), ICC (2, k), і ICC (3, k)) чи ні.

Підсумовуючи, ви повинні вибрати правильну модель (одностороння проти двостороння), і це багато в чому обговорюється в статті Шрута та Флісса. Одностороння модель, як правило, дає менші значення, ніж двостороння модель; аналогічно, модель з випадковими ефектами, як правило, дає менші значення, ніж модель з фіксованими ефектами. ICC, отриманий із моделі з фіксованими ефектами, розглядається як спосіб оцінки послідовності рейтингів (оскільки ми ігноруємо відхилення від рейтингів), тоді як для моделі випадкових ефектів ми говоримо про оцінку узгодження рейтингів (чи є рейтинги взаємозамінними чи ні). Лише двосторонні моделі містять взаємодію предмета rater x, що може бути цікавим при спробі розгадати нетипові моделі оцінювання.

На наведеному нижче малюнку легко копія / вставити приклад з ICC()в психологічно пакеті (дані з Shrout і Fleiss, 1979). Дані складаються з 4 суддів (J), які оцінюють 6 предметів або цілей (S), і підсумовуються нижче (я вважаю, що вони зберігаються у вигляді матриці R з назвою sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Цей приклад цікавий тим, що показує, як вибір моделі може впливати на результати, тому інтерпретація дослідження надійності. Усі 6 моделей ICC наступні (це Таблиця 4 у папері Шрута та Флісса)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Як видно, розгляд рейтингів як фіксованих ефектів (отже, не намагання узагальнити ширший пул рейтингів) дало б набагато більшу цінність для однорідності вимірювання. (Аналогічні результати можна отримати з пакетом irr ( icc()), хоча ми маємо грати з різними параметрами для типу моделі та одиниці аналізу.)

Що нам підказує підхід ANOVA? Нам потрібно встановити дві моделі, щоб отримати відповідні середні квадрати:

  • одностороння модель, яка розглядає лише предмет; це дозволяє розділити цілі, що оцінюються (між групами MS, BMS) та отримати оцінку терміну "помилки" (WMS)
  • двостороння модель, яка враховує суб'єкт + рейтинг + їх взаємодію (коли не буде реплікацій, останній термін буде плутати з залишками); це дозволяє оцінити основний ефект ратера (JMS), який можна врахувати, якщо ми хочемо використовувати модель випадкових ефектів (тобто додамо його до загальної змінності)

Не потрібно дивитися на F-тест, тут цікавлять лише МС.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Тепер ми можемо зібрати різні фрагменти у розширеній таблиці ANOVA, яка виглядає як показана нижче (це Таблиця 3 у папері Плаття та Флісса):


(джерело: mathurl.com )

де перші два ряди походять від односторонньої моделі, тоді як наступні два - від двосторонньої ANOVA.

Легко перевірити всі формули у статті Шрута та Флісса, і у нас є все, що потрібно для оцінки надійності для однієї оцінки . Як щодо надійності середнього показника для декількох оцінок (що часто викликає зацікавленість у міжрейтингових дослідженнях)? Слідом за Хейсом і Ревіккі (2005), це можна отримати з вищезазначеного розкладання, просто змінивши загальний МС, що розглядається в знаменнику, за винятком двосторонньої моделі випадкових ефектів, для якої нам доведеться переписати відношення МС.

  • У разі ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), загальна надійність обчислюється як (BMS-WMS) /BMS=0.443.
  • Для ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) загальна надійність становить (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
  • Нарешті, для ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) ми маємо надійність (BMS-EMS) /BMS=0.909.

Знову ж таки, ми виявляємо, що загальна надійність вища, якщо розглядати рейтингів як фіксовані ефекти.

Список літератури

  1. Shrout, PE та Fleiss, JL (1979). Внутрішньокласні кореляції: Використання для оцінки надійності рейтингу . Психологічний вісник , 86, 420-3428.
  2. Hays, RD та Revicki, D. (2005). Надійність та обґрунтованість (включаючи чуйність). In Fayers, P. and Hays, RD (ред.), Оцінка якості життя в клінічних випробуваннях , 2-е видання, с. 25-39. Oxford University Press.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.