Якщо ви останнім часом читали бюлетені спільноти, ви, ймовірно, бачили The Hunting of Snark, публікацію в офіційному блозі StackExchange Джоела Спольського, генерального директора мережі StackExchange. Він обговорює статистичний аналіз, проведений на вибірці коментарів SE для оцінки їх "дружелюбності" з точки зору стороннього користувача. Зауваження були відібрані випадковим чином із StackOverflow, і аналітики контенту були членами спільноти Механічних турків Amazon, ринку роботи, який з'єднує компанії з працівниками, які виконують невеликі, короткі завдання за доступну плату.
Не так давно я був аспірантом з політології, і один з класів, який я взяв - статистичний аналіз вмісту . Кінцевим проектом класу, власне, його ціллю було провести детальний аналіз звітів про війну New York Times, щоб перевірити, чи багато припущень американців щодо висвітлення новин під час воєн були точними чи ні (спойлер: дані свідчать, що вони є ні). Проект був величезним і досить цікавим, але, напевно, найболючішим його розділом був «етап підготовки та перевірки надійності», який відбувся до того, як ми могли провести повний аналіз. Він мав дві цілі (детальний опис див. На сторінці 9 зв'язаного документа, а також посилання на стандарти надійності інтеркодера в статистичній літературі щодо аналізу вмісту):
Підтвердьте, що всі кодери, тобто читачі вмісту, пройшли навчання за однаковими якісними визначеннями. Згідно з аналізом Джоеля, це означало, що кожен точно знатиме, як проект визначав "дружнє" та "недружелюбне".
Підтвердьте, що всі кодери надійно інтерпретували ці правила, тобто ми відібрали вибірку, проаналізували підмножину, а потім статистично продемонстрували, що наші парні кореляції на якісних оцінках були досить схожими.
Тестування надійності зашкодило, оскільки нам довелося це робити три-чотири рази. Поки -1- не було зафіксовано і -2- не показало досить високих парних кореляцій, наші результати для повного аналізу були підозрюваними. Вони не можуть бути визнані дійсними або недійсними. Найголовніше, що нам довелося провести пілотні тести на надійність до встановлення остаточного зразка.
Моє запитання таке: в статистичному аналізі Джоеля не вистачало пілотного тесту на надійність і не було встановлено жодних оперативних визначень «дружелюбності». Чи були кінцеві дані досить надійними, щоб щось сказати про статистичну обґрунтованість його результатів?
З одного боку, розглянемо цей праймер щодо значення надійності інтеркодера та послідовних експлуатаційних визначень. З глибшого в тому ж джерелі ви можете прочитати про пілотні тести на надійність (пункт 5 у списку).
За пропозицією Енді У. у своїй відповіді я намагаюся обчислити різноманітні статистичні дані про надійність набору даних, які доступні тут, використовуючи цю команду в R (оновлюється під час обчислення нової статистики).
Процентна угода (з допуском = 0): 0,0143
Процентна угода (з допуском = 1): 11.8
Альфа Криппендорфа : 0,1529467
Я також спробував модель-відповідь на ці дані в іншому запитанні.