Чи дійсно "Полювання на снарка" Джоела Спольського є статистичним аналізом змісту?


25

Якщо ви останнім часом читали бюлетені спільноти, ви, ймовірно, бачили The Hunting of Snark, публікацію в офіційному блозі StackExchange Джоела Спольського, генерального директора мережі StackExchange. Він обговорює статистичний аналіз, проведений на вибірці коментарів SE для оцінки їх "дружелюбності" з точки зору стороннього користувача. Зауваження були відібрані випадковим чином із StackOverflow, і аналітики контенту були членами спільноти Механічних турків Amazon, ринку роботи, який з'єднує компанії з працівниками, які виконують невеликі, короткі завдання за доступну плату.

Не так давно я був аспірантом з політології, і один з класів, який я взяв - статистичний аналіз вмісту . Кінцевим проектом класу, власне, його ціллю було провести детальний аналіз звітів про війну New York Times, щоб перевірити, чи багато припущень американців щодо висвітлення новин під час воєн були точними чи ні (спойлер: дані свідчать, що вони є ні). Проект був величезним і досить цікавим, але, напевно, найболючішим його розділом був «етап підготовки та перевірки надійності», який відбувся до того, як ми могли провести повний аналіз. Він мав дві цілі (детальний опис див. На сторінці 9 зв'язаного документа, а також посилання на стандарти надійності інтеркодера в статистичній літературі щодо аналізу вмісту):

  1. Підтвердьте, що всі кодери, тобто читачі вмісту, пройшли навчання за однаковими якісними визначеннями. Згідно з аналізом Джоеля, це означало, що кожен точно знатиме, як проект визначав "дружнє" та "недружелюбне".

  2. Підтвердьте, що всі кодери надійно інтерпретували ці правила, тобто ми відібрали вибірку, проаналізували підмножину, а потім статистично продемонстрували, що наші парні кореляції на якісних оцінках були досить схожими.

Тестування надійності зашкодило, оскільки нам довелося це робити три-чотири рази. Поки -1- не було зафіксовано і -2- не показало досить високих парних кореляцій, наші результати для повного аналізу були підозрюваними. Вони не можуть бути визнані дійсними або недійсними. Найголовніше, що нам довелося провести пілотні тести на надійність до встановлення остаточного зразка.

Моє запитання таке: в статистичному аналізі Джоеля не вистачало пілотного тесту на надійність і не було встановлено жодних оперативних визначень «дружелюбності». Чи були кінцеві дані досить надійними, щоб щось сказати про статистичну обґрунтованість його результатів?

З одного боку, розглянемо цей праймер щодо значення надійності інтеркодера та послідовних експлуатаційних визначень. З глибшого в тому ж джерелі ви можете прочитати про пілотні тести на надійність (пункт 5 у списку).

За пропозицією Енді У. у своїй відповіді я намагаюся обчислити різноманітні статистичні дані про надійність набору даних, які доступні тут, використовуючи цю команду в R (оновлюється під час обчислення нової статистики).

Описова статистика тут

Процентна угода (з допуском = 0): 0,0143

Процентна угода (з допуском = 1): 11.8

Альфа Криппендорфа : 0,1529467

Я також спробував модель-відповідь на ці дані в іншому запитанні.


1
Зробив публічно звільнити кодування даних таким чином можна було б піти і оцінити надійність самих кодеров , якщо один хотів.
Andy W

3
Re: # 1 - Слід зазначити, що це не стільки вправа щодо того, чи були коментарі доброзичливими чи ні, а більше вправою щодо того, чи були коментарі сприйняті як дружні чи не зовнішні користувачі.
Рейчел

3
@Rachel Я не думаю, що це правильно. Якби вони вимірювали те, як сторонні люди сприймають коментарі щодо ПЗ, їм знадобиться досить великий вибірковий набір, ніж 20 осіб.
Крістофер

2
Це різниця між тим, що робити щось про те, як сторонні сприймають коментарі, і робити щось про самі коментарі. У першому випадку вам знадобиться набагато більша вибірка людей, і висновок буде такий: "Аутсайдери вважають, що 2,3% коментарів ТА непривітні". По-друге, це "2,3% коментарів ТА недоброзичливі". Вони мають різні висновки, і я думаю, що другий може бути неможливим, оскільки ми не можемо продемонструвати, що кодери оцінюють коментарі аналогічно без перевірки надійності.
Крістофер

2
@Christopher Доброзичливість є дуже суб'єктивною. Залежно від того, кого ви запитуєте, той самий коментар може розглядатися як доброзичливий і непривітний. Ось чому я вважаю, що важливіше отримати точку зору від великої кількості випадкових користувачів, а не від когось, хто має таку саму точку зору, як ви.
Рейчел

Відповіді:


6

Процентна угода (з допуском = 0): 0,0143

Процентна угода (з допуском = 1): 11.8

Альфа Криппендорфа: 0,1529467

Ці заходи угоди стверджують, що категоричної угоди практично немає - кожен кодер має свою власну внутрішню точку відсіву для оцінювання коментарів як "доброзичливих" чи "недружніх".

Якщо припустити, що три категорії упорядковані, тобто: Недружелюбний <Нейтральний <Дружній, ми також можемо обчислити внутрішньокласне співвідношення як інший захід узгодження. На випадковій вибірці з 1000 коментарів є ICC (2,1) .28 та ICC (2, k) .88. Це означає, що якщо ви взяли б лише одну з 20 рейтингів, результати були б дуже недостовірними (.28), якщо взяти в середньому 20 рейтингів, результати надійні (.88). Взявши різні комбінації трьох випадкових рейтингів, усереднена надійність знаходиться в межах від 0,50 до 0,60, що все-таки вважатиметься занадто низьким.

Середня біваріантна кореляція між двома кодерами становить .34, що також є досить низьким.

Якщо ці заходи узгодження розглядаються як міра якості кодерів (які насправді повинні демонструвати добру згоду), відповідь така: вони не є хорошими кодерами і їх слід краще навчити. Якщо це розглядається як міра "наскільки хороша стихійна згода між випадковими особами", відповідь також така: не дуже висока. Як орієнтир, середнє співвідношення оцінок фізичної привабливості становить близько .47 - .71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Максими чи міфи краси? Метааналітичний та теоретичний огляд. Психологічний вісник, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390


7

Надійність балів часто трактується з точки зору Теорії класичного тесту . Тут є справжня оцінка, Xале те, що ви спостерігаєте при будь-якому конкретному результаті, є не тільки справжнім балом, але істинним балом з деякою помилкою (тобто Observed = X + error). Теоретично, вживаючи декілька спостережуваних заходів одного і того ж основного тесту (роблячи деякі припущення щодо розподілу помилок цих тестів), можна потім виміряти незабезпечений справжній бал.

Зауважте тут у цій рамці, що ви повинні припустити, що ваші багаторазові спостережувані заходи вимірюють один і той же базовий тест. Потім низька надійність тестових предметів часто приймається як доказ того, що спостережувані заходи не вимірюють однаковий базовий тест. Це лише умовність поля, хоча низька надійність, сама по собі, не доводить (у будь-якому статистичному сенсі) елементи не вимірюють однакову конструкцію. Тож можна стверджувати, що вживаючи багато спостережуваних заходів, навіть із дуже ненадійними тестами, можна було б отримати надійну міру справжнього балу.

Слід зазначити, що класична теорія тестів не обов'язково є єдиним способом інтерпретації таких тестів, і багато вчених стверджують, що концепція прихованих змінних та теорія відповіді на предмет завжди є більш доцільною, ніж класична теорія тесту.


Також аналогічне неявне припущення в класичній теорії випробувань - це коли люди кажуть, що надійність занадто висока. Це нічого не говорить про обгрунтованість того, чи визначає конкретний предмет (-и) якийсь базовий тест, але про те, що надійність занадто висока, дослідники сприймають це як доказ того, що помилки між тестами не є незалежними.

Я не зовсім впевнений, чому ви так наполегливо ставитеся до того, щоб не заходити і самостійно підраховувати надійність. Чому не можна було цього зробити і згодом інтерпретувати аналіз у світлі цієї додаткової інформації?


Тож спершу дозвольте мені зазначити, що я вже не студент, що займається статистикою з поважної причини: це був не зовсім мій форте. Я, можливо, неправильно пам’ятаю методику. Я все-таки думаю, що ми з вами можемо говорити про різні міри надійності, або, принаймні, є дослідження, які пропонують виміряти надійність інтеркодера до того, як буде проведений остаточний аналіз. Я відредагував питання, щоб включити одне джерело, яке я знайшов в Інтернеті, яке наводить значно більше досліджень на цю тему.
Крістофер

Це інший контекст (надійність дихотомічних тестових елементів замість деякого постійного результату), але логіка функціонально однакова. Тому я не згадав про якийсь конкретний показник надійності (їх багато). Ваша цитата ні про що не наполягає before the final analysis, тож я не зовсім впевнений, звідки це поняття.
Andy W

А-ха. Ви маєте рацію, це не зовсім вимога. Читаючи далі посилання, яке я опублікував, схоже, що ці пілотні тести вважаються найкращою методологічною практикою (пошук пілотного тесту в ньому).
Крістофер

Я змінив своє запитання, щоб прийняти нову інформацію. Дякуємо за допомогу щодо виправлення моєї помилки.
Крістофер

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.