Міжрейтингова надійність для порядкових або інтервальних даних

Які методи надійності між рейтингами найбільш підходять для порядкових або інтервальних даних?

Я вважаю, що "Спільна ймовірність угоди" або "Каппа" розроблені для номінальних даних. У той час як "Пірсон" та "Спірмен" можуть використовуватися, вони в основному використовуються для двох рейтингів (хоча їх можна використовувати більше двох рейтингів).

Які ще заходи підходять для порядкових або інтервальних даних, тобто більше двох рейтингів?

— шаді
джерело

Статистика Kappa ( ) - це показник якості, який порівнює спостережувану угоду між двома рейтингами по номінальній чи порядковій шкалі з погодженням, очікуваним лише випадково (як би рейтинги підкидають). Існують розширення для випадку декількох рейтингів (2, с. 284–291). У випадку порядкових даних ви можете використовувати зважений , який в основному читається як звичайний з недіагональними елементами, що сприяють мірі узгодження. Флісс (3) надав вказівки для інтерпретації значень але це лише великі правила великого пальця. $\kappa$ $\kappa$ $\kappa$ $\kappa$

Статистика асимптотично еквівалентна ICC, що оцінюється за двосторонніми випадковими ефектами ANOVA, але тести на значущість та SE, що виходять із звичайної рамки ANOVA, більше не дійсні для двійкових даних. Для отримання довірчого інтервалу (CI) краще використовувати bootstrap. Флісс (8) обговорював зв'язок між зваженою каппою та внутрішньокласовою кореляцією (МКК). $\kappa$

Слід зазначити, що деякі психометрики не дуже люблять оскільки на нього впливає поширеність об'єкта вимірювання, подібно до прогнозних значень, впливає поширеність розглянутої хвороби, і це може призвести до парадоксальних результатів. $\kappa$

Надійність між рейтингами для raters може бути оцінена з коефіцієнтом узгодженості Кендалла, . Коли кількість предметів або одиниць, що оцінюються , . (2, с. 269–270). Це асимптотичне наближення справедливе для помірного значення та (6), але з меншими 20 пунктами або перестановочні тести є більш підходящими (7). Існує тісний зв'язок між Спірмена і Кендалла статистики: може бути безпосередньо розраховується середнє значення попарно Спірмена кореляцій (тільки для незв'язаних спостережень). $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

Поліхоричне (порядкові дані) співвідношення може також використовуватися як міра міжрейтингової угоди. Дійсно, вони дозволяють

оцінити, якою була б кореляція, якби рейтинги робилися безперервно,
випробування граничної однорідності між щурами.

Насправді можна показати, що мова йде про особливий випадок латентного моделювання ознак, що дозволяє послабити розподільні припущення (4).

Щодо безперервних (або так припущених) вимірювань, МКК, який кількісно визначає частку дисперсії, віднесеної до варіації між суб'єктом, чудово. Знову ж таки, рекомендується завантажувати CI. Як сказано в @ars, в основному існують дві версії - узгодженість і послідовність - які застосовні у випадку досліджень з узгодженням (5), і які в основному відрізняються за способом обчислення суми квадратів; ICC "узгодженості", як правило, оцінюється без урахування взаємодії позиції × Rater. Рамка ANOVA є корисною для конкретного блокового дизайну, де хочеться мінімізувати кількість рейтингів ( BIBD ) - адже це була одна з оригінальних мотивацій роботи Флісса. Це також найкращий спосіб перейти на кількох рейтингів. Природне поширення цього підходу називається теорією узагальнення . Короткий огляд наведено в Rater Models: U Introduction , інакше стандартним посиланням є книга Бреннана, переглянута в Psychometrika 2006 71 (3) .

Що стосується загальних посилань, я рекомендую главу 3 статистики психіатрії , від Грем Данн (Hodder Arnold, 2000). Для більш повної обробки досліджень надійності найкраща посилання на дату

Данн, G (2004). Проектування та аналіз досліджень надійності . Арнольд. Дивіться огляд у Міжнародному журналі епідеміології .

Гарне введення в Інтернет доступне на веб-сайті Джона Уберсакса, Кореляція між класами та споріднені методи ; він включає обговорення плюсів і мінусів підходу ICC, особливо стосовно порядкових масштабів.

Відповідні пакети R для двостороннього оцінювання (порядкові або безперервні вимірювання) знаходяться у Психометричному перегляді завдань; Я зазвичай використовую або психіку , і психіку , або ірр пакети. Також є пакет конкорд, але я його ніколи не використовував. Для роботи з більш ніж двома рейтингами пакет lme4 - це шлях, який можна досягти, дозволяє легко включати випадкові ефекти, але більшість конструкцій надійності можна проаналізувати, використовуючи, aov()оскільки нам потрібно лише оцінити компоненти дисперсії.

Список літератури

Дж. Коен. Вагова каппа: Номінальна угода про масштаби із забезпеченням розбіжностей щодо часткового кредиту. Психологічний вісник , 70 , 213–220, 1968.
S Зігель та молодший Джон Кастеллан. Непараметрична статистика для поведінкових наук . McGraw-Hill, друге видання, 1988 р.
Дж. Фліс. Статистичні методи ставок та пропорцій . Нью-Йорк: Вілі, Друге видання, 1981 рік.
JS Uebersax. Коефіцієнти кореляції тетрахору та поліхори . Статистичні методи веб-сайту угоди про ратифікацію, 2006. Доступно за посиланням: http://john-uebersax.com/stat/tetra.htm . Доступ 24 лютого 2010 року.
PE Shrout та JL Fleiss. Внутрішньокласне співвідношення: Використовується для оцінки надійності рейтингу . Психологічний вісник , 86 , 420–428, 1979.
М. Г. Кендалл та Б. Бабінгтон Сміт. Проблема м ранжування . Анали математичної статистики , 10 , 275–287, 1939.
P Legendre. Коефіцієнт узгодженості . У NJ Salkind, редактор, Енциклопедія дослідницького дизайну . Публікації SAGE, 2010.
Дж. Фліс. Еквівалентність зваженої каппи та коефіцієнта кореляції внутрішньокласового рівня як міри надійності . Навчально-психологічний вимір , 33 , 613-619, 1973.

— хл
джерело

Три додаткові посилання: 1. За Kappa: огляд заходів межекспертная угоди по Mousumi Банерджі, Мішель Capozzoli, Лаура Максуіні, і Debajyoti Сінха 2. Відтворюваність надійність і узгодження оцінок ефективності: Методичний порівняння Джон У. Fleenor, Джулі Б. Fleenor & William F. Grossnickle

— M. Tibbits

3. Статистичні методи оцінки похибки вимірювання (надійності) у змінних, що мають відношення до спортивної медицини. автор Atkinson G & Nevill AM. Перша посилання є специфічною для порядкових даних і обговорює інші заходи, що не відповідають можливості для порядкових даних. Другий і третій характерні для інтервальних даних.

— М. Тіббіт

(+1) Велике спасибі М. Тиббітам! Я, як правило, надаю багато посилань та прикладів під час своїх лекцій з психометрії, включаючи першу, яку ви цитували, але двох інших я не знав.

— chl

Крім того, порядковий пакет дозволяє багаторівневе моделювання типу lme4, але з порядковою регресією.

— Іван

Кореляції внутрікласові можуть бути використані для порядкових даних. Але є деякі застереження, в першу чергу про те, що рейтингів не можна відрізнити. Докладніше про це та як вибрати серед різних версій ICC див.:

Внутрішньокласні кореляції: використання в оцінці надійності рейтингу (Shrout, Fleiss, 1979)

— ар
джерело