ПИТАННЯ:
У мене є двійкові дані щодо іспитових питань (правильні / неправильні). Деякі люди, можливо, мали попередній доступ до набору питань та їх правильних відповідей. Я не знаю, хто, скільки чи хто. Якби не було обману, припустимо, я б моделював вірогідність правильної відповіді для пункту як, деявляє собою складність питання, а- латентна здатність індивіда. Це дуже проста модель відповіді на предмет, яку можна оцінити за допомогою таких функцій, як ltm's rasch () в R. Крім оцінок(деіндексує осіб) латентної змінної, у мене є доступ до окремих оцінок тієї ж прихованої змінної, яку отримано з іншого набору даних, в якому обману не було можливим.
Мета - виявити людей, які, ймовірно, обдурили, та предмети, які вони обдурили. До яких підходів ви можете скористатися? Крім необроблених даних, , та доступні, хоча перші два матимуть певні упередження через обман. В ідеалі рішення було б у формі ймовірнісного кластеризації / класифікації, хоча це не є необхідним. Практичні ідеї дуже вітаються, як і формальні підходи.
Поки що я порівнював співвідношення балів запитань для пар осіб із вищими та нижчими балів (де є приблизний показник ймовірності того, що вони обдурили). Наприклад, я сортував людей по а потім побудував співвідношення підрахунків послідовних пар питань людей. Я також спробував побудувати середнє співвідношення балів для осіб, значення яких було більше, ніж квантиль , як функція . Жодних очевидних зразків для будь-якого підходу.
ОНОВЛЕННЯ:
Я в результаті поєднав ідеї від @SheldonCooper і корисний документ Freakonomics, який @whuber вказав на мене. Інші ідеї / коментарі / критики вітаються.
Нехай є бінарним балом особи за запитанням i . Оцініть модель відповіді елемента logit (Pr (X_ {ij} = 1 | z_j) = \ beta_i + z_j, де \ beta_i - параметр легкості елемента та z_j - латентна змінна здатність. (Більш складну модель можна замінити; I Я використовую 2PL у своїй заявці. Як я вже згадував у своєму початковому дописі, у мене є оцінки \ hat {q_j} змінної здатності з окремого набору даних \ {y_ {ij} \} (різні елементи, ті самі особи) на зокрема, \ hat {q_j} є емпіричними оцінками Байєса з тієї ж моделі відповіді пункту, що і вище.
Ймовірність спостережуваного балу , що обумовлена легкістю предмета та здатністю людини, може бути записана де - прогнозована ймовірність правильна відповідь, а - зворотний logit. Тоді, від характеристик предмета та особи, спільна ймовірність того, що особа має спостереження є і аналогічно спільна ймовірність того, що предмет має спостереження
Додатковим кроком, який я спробував, є взяття r% від найменш вірогідних осіб (тобто осіб з найнижчими r% відсортованих значень p_j), обчислення середньої відстані між їх спостережуваними балами x_j (яка повинна співвідноситися для осіб з низьким r, які можливі шахрайки), і побудуйте його для r = 0,001, 0,002, ..., 1.000. Середня відстань збільшується для r = 0,001 до r = 0,025, досягає максимуму, а потім повільно знижується до мінімуму при r = 1. Не зовсім те, на що я сподівався.