У мене є кілька незалежних кодерів, які намагаються ідентифікувати події у часовій серії - в цьому випадку дивляться відео бесіди віч-на-віч і шукають особливості невербальної поведінки (наприклад, головні кивки) та кодують час і категорію кожного. подія. Ці дані можна обґрунтувати як дискретний часовий ряд із високою швидкістю вибірки (30 кадрів в секунду) або як серію безперервного часу, з чим легше працювати.
Я хотів би обчислити деяку міру надійності між рейтингами, але я очікую, що існує певна невизначеність, коли відбудуться події; тобто я думаю, що один кодер може, наприклад, кодувати, що певний рух розпочався на чверть секунди пізніше, ніж інші кодери думали, що це почалося. Це рідкісні події, якщо це допомагає; зазвичай принаймні кілька секунд (сотні відеокадрів) між подіями.
Чи є хороший спосіб оцінки надійності між рейтингами, який враховує обидва ці угоди та незгоду: (1) чи згодні рейтинги щодо того, яка подія сталася (якщо така є), та (2) чи вони згодні, коли вона сталася? Друге для мене важливо, тому що мені цікаво дивитись на час цих подій стосовно інших речей, що відбуваються в розмові, як, наприклад, що люди говорять.
Стандартною практикою в моєму полі, здається, є поділ речей на часові відрізки, скажімо, 1/4 секунди або близько того, агрегування подій, про які повідомив кожен кодер за часовий відрізок, а потім обчислити каппу Коена чи якусь подібну міру. Але вибір тривалості скибочки є тимчасовим, і я не розумію непевності в часі подій.
Найкраща думка, яку я маю досі, - це те, що я міг обчислити якусь криву надійності; щось на зразок kappa як функція від розміру вікна, в межах якого я розглядаю дві події як кодовані одночасно. Я не дуже впевнений, куди піти звідти, хоча ...