Як я можу найкраще боротися з ефектами маркерів з різним рівнем щедрості в оцінюванні студентських робіт?


13

Близько 600 студентів мають оцінку за обширною оцінкою, яку можна припустити, що вона має хорошу надійність / достовірність. Оцінка оцінюється з 100, і це тест з множинним вибором, позначений комп'ютером.

Ці 600 студентів також мають бали за другою, другорядною оцінкою. У цій другій частині оцінювання вони розділені на 11 когорт з 11 різними грейдерами, і між грейдерами є небажано велика різниця в плані їх «щедрості» в маркуванні або їх відсутності. Ця друга оцінка також набрана зі 100.

Студенти не були призначені до когорти випадковим чином, і є вагомі причини розраховувати на різницю в рівнях кваліфікації між когортами.

Мені поставлено завдання переконатися, що різниці між маркерами когорт у другому завданні істотно не приносять переваги / шкоди окремим студентам.

Моя ідея полягає в тому, щоб когортова оцінка на другій оцінці узгоджувалася з когортними оцінками на першій, зберігаючи індивідуальні відмінності в когортах. Ми повинні припустити, що у мене є вагомі підстави вважати, що результативність цих двох завдань буде сильно співвідносною, але що маркери значно відрізняються своєю щедрістю.

Це найкращий підхід? Якщо ні, що таке?

Було б дуже вдячно, якби відповідач міг дати кілька практичних порад про те, як реалізувати хороше рішення, скажімо, в R або SPSS або Excel.


3
Чудове запитання! Чи повинні підсумкові бали за багаторазовий вибір та частини есе є порівнянними (тобто однакові числові діапазони)?
gung - Відновіть Моніку

2
Коли я писав це питання, я думав, що це може бути на твоїй алеї! Підсумкові бали в цілому порівнянні, але трохи інші. Середнє значення на секції з множинним вибором становить ~ 70, а SD - близько 15. Середнє значення на іншому розділі становить ~ 85, а SD - близько 6.
user1205901 - Поновіть Моніку

7
Мені було б підозріло до будь-яких зусиль, щоб вирішити цю проблему, виходячи лише з описаних вами даних, оскільки це повинно було б спиратися на сильне (і незаперечне) припущення, що між двома окремими інструментами тестування немає взаємодії між когортою та продуктивністю. Якщо ви, можливо, розгляньте варіант проведення окремого невеликого експерименту для калібрування грейдерів.
whuber

9
Щоб краще побачити, де лежить проблема, припустімо (гіпотетично), що (1) дві форми оцінювання є множинним вибором та есе та (2) ваші старші учні схильні робити порівняно краще з питань есе. Якщо ви використовуєте свої дані для того, щоб бали "узгоджувались", ви будете плутати ефективність грейдера з віковими ефектами і, вносячи корективи, тим самим систематично нестати старшим школярам порівняно з молодшими. Яким би складним алгоритмом ви не вибрали, він може лише вирішити цю основну проблему. Вам потрібно деякі додаткові дані для вирішення цієї втручаються.
whuber

3
Одне, що слід враховувати, - наскільки комфортно ви пояснюєте студентам чи іншим зацікавленим сторонам процедуру коригування: багато хто може вважати, що, враховуючи потенційну проблему з маркуванням, вкладати певні зусилля для належної калібрування маркерів було б не надто очікувати, якщо іспит є важливим.
Scortchi

Відповіді:


8

Знаючи , як грейдери відрізняються добре, але до сих пір не говорить вам , що для компенсації ранги в . Для простоти уявіть лише двох грейдерів. Навіть якщо ми зробимо висновок, що оцінювач 1 - це на 5 балів щедріший за клас 2, це не говорить вам про те, що робити з двома учнями, які отримали оцінку 70, одному класові 1 та другокласнику 2. Чи скажемо ми, що грейдер 2 був суворим маркером і збільшував цей показник на 70–75, залишаючи без змін 70, позначені грейдером 1? Або ми вважаємо, що грейдер 1 був надмірно поблажливим, збив свого учня до 65 балів і не змінив 70-х класів 2-го класу? Чи ми робимо компроміс на півдорозі - поширюючись на вашу справу, виходячи із середнього показника з 11 гредерів? Це важливі абсолютні оцінки, тому знання відносної щедрості недостатньо.

Ваш висновок може залежати від того, наскільки "об'єктивним" ви вважаєте остаточну абсолютну оцінку. Однією з ментальних моделей було б запропонувати кожному студенту мати "правильну" оцінку - ту, яку присвоїв би провідний оцінювач, якби встиг позначити кожен документ окремо, - до якого оцінені оцінки наближаються. У цій моделі спостережувані оцінки потрібно компенсувати їх класові, щоб максимально наблизити їх до незабезпеченого «справжнього» оцінку. Іншою моделлю може бути те, що всяке оцінювання є суб'єктивним, і ми прагнемо перетворити кожну спостережувану оцінку на позначку, яку ми передбачаємо, що вона була б присвоєна, якби всі грейдери розглядали один і той же папір і досягали якогось компромісного чи середнього оцінок для нього. Я вважаю другу модель менш переконливою як рішення, навіть якщо визнання суб'єктивності більш реалістичним. У навчальній обстановці зазвичай є хтось, хто несе остаточну відповідальність за оцінку, за те, щоб студенти отримували "оцінку, яку вони заслуговували", але ця головна роль по суті звільнила відповідальність перед самими грейнерами, про яких ми вже знаємо, що вони помітно не погоджуються. Звідси я припускаю, що тамце одна «правильна» оцінка, яку ми прагнемо оцінити, але це суперечлива пропозиція і може не відповідати вашим обставинам.

Припустимо, учні A, B, C і D, які знаходяться в одній когорті, "повинні" оцінюватися відповідно 75, 80, 85 і 90, але їхній щедрий клас постійно оцінює 5 балів занадто високо. Ми спостерігаємо 80, 85, 90 і 95 і повинні відняти 5, але знайти фігуру для віднімання проблематично. Це неможливо зробити, порівнюючи результати між когортами, оскільки ми очікуємо, що когорти відрізнятимуться середньою здатністю. Однією з можливостей є використання результатів тестування з декількома варіантами для прогнозування правильних балів у другому завданні, а потім використовувати це для оцінки варіацій між кожним класом та правильними оцінками. Але робити це передбачення нетривіально - якщо ви очікуєте різного середнього та стандартного відхилень між двома оцінками, ви не можете просто припустити, що другі оцінки повинні відповідати першим.

Також студенти відрізняються відносною здатністю при багатократному виборі та письмових оцінках. Ви можете ставитися до цього як до якогось випадкового ефекту, утворюючи компонент "спостережуваних" та "справжніх" оцінок учня, але не захоплений їх "передбачуваною" оцінкою. Якщо когорти систематично відрізняються, а студенти в когорті, як правило, подібні, то не слід очікувати, що цей ефект в середньому дорівнює нулю в межах кожної групи. Якщо спостережувані групи когорти в середньому +5 проти прогнозованих, це неможливощоб визначити, чи це пов’язано з щедрою грейдерною групою, когорта особливо краще підходить для письмового оцінювання, ніж множинний вибір, або якась комбінація обох. В крайньому випадку, когорта може мати навіть меншу придатність при другій оцінці, але це було б більш ніж компенсовано дуже щедрим грейдером - або навпаки. Ви не можете розірвати це. Це збентежено.

Я також сумніваюся у достатності такої простої моделі добавок для ваших даних. Грейдери можуть відрізнятися від провідного оцінювача не лише за зміною місця розташування, а й за поширенням - хоча оскільки групи, можливо, різняться за однорідністю, ви не можете просто перевірити поширення спостережуваних класів у кожній когорті, щоб виявити це. Більше того, основна частина дистрибуції має високі бали, досить близькі до теоретичного максимуму 100. Я б передбачив, що це введення нелінійності через стиснення майже до максимуму - дуже щедрий грейдер може дати позначки A, B, C і D, як 85, 90, 94, 97. Повернути це важче, ніж просто відняти константу. Гірше, що ви можете побачити "відсікання" - надзвичайно щедрий грейдер може оцінити їх як 90, 95, 100, 100. Це неможливоповернути назад, а інформація про відносну продуктивність C і D безповоротно втрачається.

Ваші грейдери поводяться зовсім інакше. Ви впевнені, що вони відрізняються лише своєю загальною щедрістю, а не своєю щедрістю в різних компонентах оцінки? Це, можливо, варто перевірити, оскільки це може спричинити різні ускладнення - наприклад, спостережуваний бал для B може бути гіршим, ніж показник A, незважаючи на те, що B на 5 балів "кращий", навіть якщо виділені оцінювачі для кожного компонента оцінювачі монотонно зростають провідного оцінювача! Припустимо, оцінка розділена між Q1 (A має оцінку 30/50, B 45/50) та Q2 (A має оцінку 45/50, B 35/50). Уявіть, що грейдер дуже поблажливий до Q1 (спостережені класи: A 40/50, B 50/50), але суворий щодо Q2 (спостерігається: A 42/50, 30/50), тоді ми спостерігаємо загальну кількість 82 для A і 80 для B. Якщо вам доведеться враховувати бали компонентів,

Можливо, це розширений коментар, а не відповідь, в тому сенсі він не пропонує конкретного рішення в межах початкової межі вашої проблеми. Але якщо ваші грейдери вже обробляють близько 55 паперів у кожній, то чи так це погано для них, щоб з метою калібрування переглянути ще п’ять чи десять? Ви вже маєте гарне уявлення про здібності учнів, тому зможете підібрати зразок робіт прямо з усіх класів. Потім ви можете оцінити, чи потрібно компенсувати щедрість грейдера у всьому тесті або в кожному компоненті, і чи потрібно це робити лише додаванням / відніманням константи або чимось більш складним, як-от інтерполяція (наприклад, якщо ви переживаєте за не- лінійність біля 100). Але слово попередження про інтерполяцію: припустимо, що провідний оцінювач відзначає п'ять зразків робіт як 70, 75, 80, 85 і 90, в той час як грейдер оцінює їх як 80, 88, 84, 93 і 96, тому існує певна незгода щодо порядку. Ймовірно, ви хочете відобразити оцінені оцінки від 96 до 100 на інтервалі 90 до 100, а спостережувані оцінки від 93 до 96 на інтервалі від 85 до 90. Але певна думка потрібна для оцінок нижче цього. Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу". Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу". Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу".


1
На жаль, характер оцінки 2 унеможливлює грейдери більше дивитися на цілі калібрування. Ви можете подумати про це як на усний декламацію віршів, який робився один раз без запису, і який був оцінений відразу після цього. Недоцільно було б планувати нові декламації виключно для калібрування. Щоб відповісти на ваше інше питання, в оцінці 2 насправді не було чітких підкомпонентів, і нам не потрібно враховувати бали компонентів.
user1205901

1
Це "не відповідь", але в ідеальному світі я б запропонував перевернути речі та використовувати приклад зразка (можливо, штучних завдань, навмисно розроблених для встановлення на граничних рівнях, а не реальних студентів) як спосіб навчання гредери повинні мати ту саму щедрість, а не виводити та компенсувати свої щедрості. Якщо оцінки зроблені, це, очевидно, не для вас рішення.
Срібна рибка

1
(+1) Дуже ретельно "не відповідь". Послідовність у досить суб'єктивних тестах часто можна значно поліпшити, розділивши завдання на оцінку на компоненти - інакше один грейдер може надати більше ваги ритму, інший - проекції та ін.
Scortchi

Зрозуміло, що крім подання можливої ​​коригування людині, яка остаточно вирішить питання, мені також потрібно буде подати деякі пояснення плюсів і мінусів коригування. Ваша відповідь дає багато корисних матеріалів щодо цього. Однак мені цікаво, якими критеріями я можу скористатись, щоб визначити, чи вигідніше залишити все в спокої чи внести зміни. Я дивлюся на групи когортів, і моя інтуїція говорить про те, що відмінності між маркерами мають великий вплив. Інтуїція ненадійна, але я не впевнений, що ще я можу продовжувати в цій справі.
user1205901

2
Одне питання полягає в тому, чи є у вас розумні підстави вважати, що ефект "диференційованої здатності до задачі" є невеликим, особливо коли він усереднений за когорту, порівняно з ефектом "великодушності щедрішого". Якщо так, ви можете спробувати оцінити ефект щедрості для кожної когорти - але ви ризикуєте збентежитись. Більше того, є Catch 22. Мені було б найбільш обережно застосовувати великі "виправлення" до спостережуваних оцінок. Але якщо запропоновані виправлення невеликі, правдоподібні, вони пов'язані із систематичними відмінностями у різній здатності задач між когортами, а не щедрістю грейдера.
Срібна рибка

2

Дуже проста модель:

Нехай - оцінка студента на тесті 1, а його оцінка на тесті 2. Нехай є розділом учнів у вихідних когортах.s1,iis2,iA1,,Ap

Кожна когорта упереджена силою своїх учнів та легкістю грейдера. Якщо припустити, що це аддитивний ефект, ми відмовимося від нього наступним чином: віднімемо середній бал когорти за перший тест і додамо середній бал когорти у другому тесті.

Ми обчислюємо скоригований показник як випливаєs1

jp,iAj,s1,i=s1,i1|Aj|iAj(s1,is2,i)

І, нарешті, сформувати остаточний рахунок з якою б зважуючи ви знайдете відповіднуs

i,si=αs1,i+(1α)s2,i

Мінусом є те, що окремий студент може бути покараний, якщо люди, що знаходяться в його когорті, отримали нещастя на другому тесті. Але будь-яка статистична методика матиме цей потенційно несправедливий мінус.


3
Як і будь-яка інша пропозиція, і ця буде страждати від невід'ємної несправедливості неможливості відрізнити ефект грейдера від групового ефекту. Просто цього немає. Принаймні, ваша процедура трохи прозоріша, ніж деякі інші, які були запропоновані, зробивши очевидний її довільний характер (у виборі ). α
whuber

1
Ні - когорти не вибираються випадковим чином.
Scortchi

1
... яка, як стверджує @whuber, збентежена будь-якою притаманною тенденцією когорти (внаслідок віку чи будь-якого іншого) робити порівняно краще на одному типі тесту, ніж на іншому.
Scortchi

2
Ви не можете усунути плутанину, взявши більші когорти! У кращому випадку ви можете придумати все більш точні оцінки неінтерпретованих значень.
whuber

3
Розумне, можливо, але воно незаперечне з огляду на інформацію, доступну для ОП. Обґрунтованість вашої відповіді спирається на правдивість цього неявного припущення. Що ще гірше, його заперечення (що, звичайно , теж неможливо перевірити) є цілком розумним, теж: бо когорти самостійно вибирають, вони можуть складатися з людей , які виконують в загальних шляхах на різних інструментах оцінки, вважаючи , що це може бути на самому справі , ймовірно , що диференційоване успіх буде частково обумовлена ​​когортою і лише частково через мінливість серед грейдерів.
whuber

1

Ви не можете. Принаймні, не без збору додаткових даних. Щоб зрозуміти чому, прочитайте численні схвальні коментарі @ whuber у цій темі.


0

Редагувати

Проблема, вирішена в цій відповіді, полягає в тому, щоб знайти грейдерів, які дають менше балів тим, хто не любить студентів.

Оригінальна публікація

Мій підхід, який, на мою думку, легко здійснити, був би таким:

μk,ikiyk,i

1

Припустимо модель

yk,i=μk,i+α+τek,iααiα

2

Giiy~k,i

yk,iμk,iα=y~k,i=Gi+σie~k,i

Gσ

3

Зараз незвичне спостереження одне таке, що кількість

T=|y~Giσi|

Примітка

eT

R-код

Нижче наведено код у Р. Зауважте, що у вашому випадку буде вказано і mu, і y, тому генеруючі рядки, коли їм присвоєні номери rnorm, слід ігнорувати. Я включаю їх, щоб можна було оцінити сценарій без даних.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
Ви, здається, не відповіли на питання: закінчуєте лише рекомендацією досліджувати будь-які "незвичні спостереження". Як це вирішує проблему?
whuber

Прочитавши ще раз питання, можливо, я занадто багато зосередився на "індивідуальній" частині. Проблема, вирішена в цій відповіді, полягає в тому, щоб знайти грейдерів, які дають менше балів тим, хто не любить студентів. Оригінальне питання неможливо (!) Вирішити. Як уже було запропоновано, велика ймовірність того, що студенти співпрацюють або іншим чином сильно співвідносяться в межах кожної групи.
Хунафу

0

Перефразовуючи проблему: як найкраще підійти до встановлення оцінювання з двох частин іспиту з умовами, що вимагають, щоб друга частина була піддана більшої невизначеності через спектр якісних оцінок Делегованих Маркерів.

Де: Майстер-тестер = відповідальна особа за іспит Делегований тестер = особа (1 з 11), призначена для позначення пар № 2 іспиту Студент = хлопець, який отримує задоволення від складання іспиту

Цілі включають: A) Студенти отримують оцінку, що відображає їхню роботу B) Управління невизначеністю другої частини для вирівнювання з наміром Майстер-тестера

Запропонований підхід (відповідь): 1. Тестер-майстер випадковим чином вибирає репрезентативний вибірковий набір іспитів, відмічає частину №2 та розробляє кореляцію з частиною №2. 2. Використовуйте кореляцію для оцінки всіх даних делегованих маркерів (частина 1 проти бала №2) 3. Якщо співвідношення суттєво відрізняється від головного тестера - значення, яке має бути прийнятним для головного тестера - вивчіть іспит як головний тестер, щоб повторно призначити результат.

Цей підхід гарантує, що головний тестер відповідає за співвідношення та прийнятне значення. Кореляція може бути такою ж простою, як оцінка за частину №1 проти №2 або відносні бали для питань тесту №1 проти №2.

Тестер-майстер також зможе встановити якість результату для Частини 2 на основі "гумовості" кореляції.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.