Копена Коена на звичайній англійській мові


131

Я читаю книгу обміну даними, і в ній згадується статистика Kappa як засіб для оцінки ефективності прогнозування класифікаторів. Однак я просто не можу цього зрозуміти. Я також перевірив Вікіпедію, але це теж не допомогло: https://en.wikipedia.org/wiki/Cohen's_kappa .

Як Каппа Коена допомагає оцінювати ефективність прогнозування класифікаторів? Що це говорить?

Я розумію, що 100% каппа означає, що класифікатор повністю узгоджується із випадковим класифікатором, але я не розумію, як це допомагає оцінювати ефективність класифікатора?

Що означає 40% каппа? Чи означає це, що 40% часу класифікатор узгоджується із випадковим класифікатором? Якщо так, то що це говорить мені чи допомагає мені в оцінці класифікатора?

Відповіді:


226

Вступ

Статистика Kappa (або значення) - це показник, який порівнює спостережувану точність з очікуваною точністю (випадковий шанс). Статистика каппи використовується не тільки для оцінки одного класифікатора, але і для оцінки класифікаторів між собою. Крім того, він враховує випадковий шанс (узгодження з випадковим класифікатором), що, як правило, означає, що це менш оману, ніж просто використання точності в якості метрики ( Спостережна точність 80% набагато менш вражаюча при очікуваній точності 75% проти очікуваної точності 50%). Розрахунок спостережуваної точності та очікуваної точностіє невід'ємною частиною розуміння статистики kappa, і найлегше проілюструється за допомогою використання матриці плутанини. Почнемо з простої матриці плутанини з простої двійкової класифікації кішок і собак :

Обчислення

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

Припустимо, що модель була побудована за допомогою контрольованого машинного навчання на маркованих даних. Це не завжди має бути так; статистика каппа часто використовується як міра надійності між двома людськими щурами. Незалежно від цього, стовпці відповідають одному "рейтингу", а рядки - іншому. У контрольованому машинному навчанні один "рейтинг" відображає основну істину (фактичні значення кожного екземпляра, що підлягає класифікації), отриману з мічених даних, а інший "рейтинг" - це класифікатор машинного навчання, який використовується для класифікації. Зрештою, не важливо, що саме для обчислення статистики каппи, а для ясності " класифікації.

З матриці плутанини ми бачимо, що існує 30 екземплярів (10 + 7 + 5 + 8 = 30). Відповідно до першого стовпця 15 позначали як Котів (10 + 5 = 15), а відповідно до другого стовпця 15 позначали як Собаки (7 + 8 = 15). Ми також можемо бачити, що модель класифікувала 17 екземплярів як Cats (10 + 7 = 17) і 13 екземплярів як Dogs (5 + 8 = 13).

Спостережувана точність - це просто кількість примірників, які були класифіковані правильно у всій матриці плутанини, тобто кількість примірників, які були позначені як Cats через ґрунтовну правду, а потім класифіковані як Cats за допомогою машинного класифікатора або позначені як Собаки через наземну правду та потім класифікуються як Собаки за класифікатором машинного навчання . Щоб обчислити спостережувану точність , ми просто додаємо кількість примірників, які класифікатор машинного навчання погодився з основним істиноюмітка та розділити на загальну кількість примірників. Для цієї матриці плутанини це буде 0,6 ((10 + 8) / 30 = 0,6).

Перш ніж дійти до рівняння для статистики каппи, потрібно ще одне значення: очікувана точність . Це значення визначається як точність, яку слід було б досягти будь-яким випадковим класифікатором на основі матриці плутанини. Очікувана точність безпосередньо пов'язана з кількістю примірників кожного класу ( кішки і собаками ), а також кількістю примірників , що машина навчання класифікаторів узгодженими з землею правди етикеткою. Для розрахунку очікуваної точності для нашого замішання матриці, першим помножити граничну частоту на кішка для одного «Рейтера» по граничної частоті вКішки для другого «рейтера», і розділіть на загальну кількість примірників. Гранична частота для деякого класу за певним «оцінювачу» це просто сума всіх випадків «рейтер» вказується , що був клас. У нашому випадку, 15 (10 + 5 = 15) екземпляри були помічені як кішки в відповідно до землі істини , і 17 (10 + 7 = 17) випадки були класифіковані як кішки в машині класифікатором навчання . Це призводить до значення 8,5 (15 * 17/30 = 8,5). Потім це робиться і для другого класу (і може повторюватися для кожного додаткового класу, якщо їх більше 2). 15(7 + 8 = 15) екземпляри були помічені як Собаки в відповідно до наземної істиною , і 13 (8 + 5 = 13) випадки були класифіковані як собак по машинного навчання класифікатора . Це призводить до значення 6,5 (15 * 13/30 = 6,5). Заключний крок , щоб додати всі ці значення разом, і , нарешті , знову розділити на загальне число випадків, в результаті очікуваної точності від 0,5 (8,5 + (6,5) / 30 = 0,5). У нашому прикладі очікувана точність виявилася 50%, як завжди, коли будь-який "рейтинг" класифікує кожен клас з однаковою частотою у бінарній класифікації (обидва котиі Собаки містили 15 примірників відповідно до міток основної правди в нашій матриці плутанини).

Статистику каппи потім можна обчислити, використовуючи як спостережувану точність ( 0,60 ), так і очікувану точність ( 0,50 ) та формулу:

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

Отже, у нашому випадку статистика каппи дорівнює: (0,60 - 0,50) / (1 - 0,50) = 0,20.

Як інший приклад, ось менш збалансована матриця плутанини та відповідні обчислення:

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

Основна правда: Кішки (29), Собаки (22)
Класифікатор машинного навчання: Коти (31), Собаки (20)
Всього: (51)
Точність спостереження: ((22 + 13) / 51) = 0,69
Очікувана точність: ((29 * 31/51) + (22 * 20/51)) / 51 = 0,51
Каппа: (0,69 - 0,51) / (1 - 0,51) = 0,37

По суті, статистика каппи - це міра того, наскільки тісно, ​​коли класифіковані класифікатором машинного навчання екземпляри відповідали даним, позначеним як основна істина , контролюючи точність випадкового класифікатора, виміряного очікуваною точністю. Ця статистика каппи не тільки може пролити світло на те, як виконується сам класифікатор, статистика каппи для однієї моделі прямо порівнянна зі статистикою каппа для будь-якої іншої моделі, що використовується для тієї ж задачі класифікації.

Інтерпретація

Не існує стандартизованого тлумачення статистики каппи. Згідно з Вікіпедією (цитуючи свої статті), Ландіс і Кох вважають 0-0,20 незначними, 0,21-0,40 - справедливими, 0,41-0,60 - помірними, 0,61-0,80 - істотними, а 0,81-1 - майже ідеальними. Фліс вважає, що капас> 0,75 є відмінним, 0,40-0,75 - справедливим до доброго, а <0,40 - поганим. Важливо зазначити, що обидві шкали дещо довільні. Принаймні два наступні міркування слід враховувати при інтерпретації статистики кап. По-перше, статистику kappa завжди слід порівнювати із супроводжуваною матрицею плутанини, якщо можливо, для отримання найбільш точної інтерпретації. Розглянемо наступну матрицю плутанини:

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

Статистика коефіцієнта становить 0,47, що значно перевищує поріг для помірних за Ландісом та Кохом, а також для Флісса. Однак зауважте, частота показів для класифікації кішок . Менше третини всіх котів були фактично віднесені до котів ; решта були віднесені до собак . Якщо ми більше піклуємося про правильне класифікацію котів (скажімо, у нас алергія на котів, але не на собак , і все, що нас хвилює, не піддається алергії, на відміну від максимального збільшення кількості тварин, яких ми приймаємо), то класифікатор з нижчою kappa, але краща швидкість класифікації котів може бути більш ідеальною.

По-друге, прийнятні статистичні значення каппи залежать від контексту. Наприклад, у багатьох дослідженнях надійності між рейтингами, які легко спостерігаються, статистичні значення каппа нижче 0,70 можуть вважатися низькими. Однак у дослідженнях, що використовують машинне навчання для дослідження непомітних явищ, таких як когнітивні стани, такі як денний сон, статистичні значення вище 0,4 можуть вважатися винятковими.

Отже, у відповіді на ваше запитання про 0,40 каппа, це залежить. Якщо нічого іншого, це означає, що класифікатор досягнув швидкості класифікації 2/5 шляху між будь-якою очікуваною точністю і 100% точністю. Якщо очікувана точність становила 80%, це означає, що класифікатор виконував 40% (тому що каппа становить 0,4) 20% (оскільки це відстань між 80% і 100%) вище 80% (оскільки це каппа 0, або випадковий шанс), або 88%. Отже, у цьому випадку кожне збільшення каппи на 0,10 вказує на 2% -ве збільшення точності класифікації. Якщо точність була замість 50%, каппа 0,4 означала б, що класифікатор виконував з точністю, яка на 40% (капа 0,4) 50% (відстань між 50% і 100%) більше 50% (тому що це каппа 0, або випадковий шанс), або 70%. Знову ж таки, у цьому випадку це означає, що збільшення каппи 0.

Класифікатори, побудовані та оцінені на наборах даних різних розподілів класів, можна порівняти більш надійно за допомогою статистики kappa (на відміну від простого використання точності) через таке масштабування щодо очікуваної точності. Це дає кращий показник ефективності роботи класифікатора у всіх екземплярах, оскільки проста точність може бути перекошена, якщо розподіл класів аналогічно перекошений. Як було сказано раніше, точність 80% набагато вражає, очікувана точність 50% проти очікуваної точності 75%. Очікувана точність, як детально описано вище, чутлива до перекошених розподілів класів, тому, контролюючи очікувану точність за допомогою статистики kappa, ми дозволяємо легше порівняти моделі різних розподілів класів.

Це про все, що я маю. Якщо хтось помітить що-небудь пропущене, що-небудь неправильне або якщо все-таки незрозуміле, будь ласка, дайте мені знати, щоб я міг покращити відповідь.

Список літератури, який я вважав корисним:

Включає стислий опис каппи: http://standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

Включає опис розрахунку очікуваної точності: http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
Додамо деяке підґрунтя щодо того, чому очікувана частота комірки дорівнює rowsum * colsum / N, оскільки це скорочена версія, і на початку не очевидно, чому має місце рівняння. Це також використовується в тестуванні Chi-Square: en.wikipedia.org/wiki/…
Жубарб

2
це чудова відповідь, але мені цікаво, чи не могли б ви пролити більше світла (або посилань!) на те, як дуже домінуючий клас може вплинути на тлумачення каппи. Наприклад, у мене є матриця конфіденційності 7 класів земельного покриття, і один з них є домінуючим (~ 70% усіх даних). Я припускаю, що це «поливає» загальну помилку?
Сем

2
Просто випадковий коментар: ваш опис набагато чіткіше, ніж сторінка Вікіпедії :)
R.Falque

1
Для очікуваної точності зауважте, що може бути простіше думати про наступне: (15/30) - очікувана частка разів, коли "основна правда" класифікує щось кішку, і (15/30) - очікувана частка разів, ніж "земна правда" класифікує щось собаку. Аналогічно, для класифікатора ML (17/30) очікувана частка котів, (13/30) очікувана частка собак. Припустимо, що не пов'язані між собою класифікатори, тоді у нас відсоток часу класифікатори погоджуються випадково, як (15/30) * (17/30) + (15/30) * (13/30) = .5 (або вони згодні і класифікуються як собака або як кіт). Отже, 5 разів угода є випадковою.
ClownInTheMoon

1
Ну, порівняння анотаторів - це первісний намір, точно. Однак наукова історія засмічена випадками, коли якась інша формула вискочила зі свого нерестового басейну в інший і зробила світ кращим. Але, мабуть, краще використовувати показники, залежні від вашого випадку. Ви повинні зрозуміти сильні та слабкі сторони показників кандидата, перш ніж приймати остаточне рішення. Наприклад, AUPRC може бути кращим методом у деяких випадках.
rbx

14

rbx має чудову відповідь. Однак, це трохи багатослівно. Ось мій підсумок та інтуїція за метрикою Kappa.


Kappa є важливим показником ефективності класифікатора, особливо для незбалансованого набору даних .

Наприклад, при виявленні шахрайства на кредитній картці граничний розподіл змінної відповіді сильно перекошений, що використання точності як міри не буде корисним. Іншими словами, для даного прикладу виявлення шахрайства 99,9% транзакцій будуть угодами без шахрайства. У нас може бути тривіальний класифікатор, який завжди говорить про не шахрайство до кожної транзакції, і ми все одно матимемо 99,9% точності.

З іншого боку, Kappa "виправить" цю проблему, розглядаючи граничний розподіл змінної відповіді . Використовуючи Kappa, згаданий тривіальний класифікатор матиме дуже маленьку Kappa.

Простий англійською мовою він вимірює, наскільки краще класніше, порівняно із здогадками та цільовим розподілом.


1
У мене є відчуття, що останній абзац повинен читати "Простий англійською мовою він вимірює, наскільки краще класифікатор порівняно із здогадками та цільовим розподілом".
Срібна рибка

8

1

"Наприклад, наведені неправдоподібні коди та спостерігачі, які на 85% точні:

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

Тепер, що робити, якщо у нас немає неправдоподібних кодів, але різні "базові ставки"?

Для двох кодів ділянки kappa від Bruckner et al. виглядав би таквведіть тут опис зображення

... Тим не менш (... продовження цитати у Вікіпедії) в літературі з'явилися настанови щодо масштабів. Можливо, першими були Ландіс і Кох, які характеризували цінності

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

Цей набір керівних принципів аж ніяк не є загальновизнаним; Лендіс і Кох не надали жодних доказів на підтвердження цього, спираючись на особисту думку. Зазначено, що ці вказівки можуть бути більш шкідливими, ніж корисними. Не менш довільні настанови Флісса характеризують каппас

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(кінець цитати у Вікіпедії)

12

Також див. Використання статистики каппи Коена для оцінки бінарного класифікатора для подібного питання.

1 Бакман, Р .; Кера, В.; McArthur, D .; Робінсон, Б.Ф. (1997). "Виявлення послідовних зразків та визначення їх надійності з помилковими спостерігачами". Психологічні методи. 2: 357–370. doi: 10.1037 / 1082-989X.2.4.357

2 Робінсон Б.Ф., Бакман Р. КомКаппа: Програма Windows 95 для обчислення каппи та пов'язаної з ними статистики. Методи дослідження поведінки. 1998; 30: 731-2.


1

щоб відповісти на ваше запитання (простою англійською мовою :-)):

Як Kappa допомагає оцінювати ефективність прогнозування класифікаторів? Що це говорить? !!

Ви повинні розглядати каппу як міру домовленості між двома особами, щоб результат можна інтерпретувати як:

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
Не застосовуйте цю шкалу наосліп, читайте відповідь з rbx: "Існує не стандартизована інтерпретація статистики каппи. ... Ландіс і Кох вважають 0-0,20 незначними, 0,21-0,40 як справедливими, 0,41-0,60 як помірними , 0,61-0,80 як суттєвий, а 0,81-1 - майже ідеальний. Фліс вважає, що капас> 0,75 є відмінним, 0,40-0,75 - справедливим до доброго, а <0,40 - поганим. Важливо зазначити, що обидві шкали дещо довільні. при інтерпретації статистики каппи слід враховувати принаймні два наступні міркування ". Ці міркування пояснюються у відповіді
rbx
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.