Знаючи , як грейдери відрізняються добре, але до сих пір не говорить вам , що для компенсації ранги в . Для простоти уявіть лише двох грейдерів. Навіть якщо ми зробимо висновок, що оцінювач 1 - це на 5 балів щедріший за клас 2, це не говорить вам про те, що робити з двома учнями, які отримали оцінку 70, одному класові 1 та другокласнику 2. Чи скажемо ми, що грейдер 2 був суворим маркером і збільшував цей показник на 70–75, залишаючи без змін 70, позначені грейдером 1? Або ми вважаємо, що грейдер 1 був надмірно поблажливим, збив свого учня до 65 балів і не змінив 70-х класів 2-го класу? Чи ми робимо компроміс на півдорозі - поширюючись на вашу справу, виходячи із середнього показника з 11 гредерів? Це важливі абсолютні оцінки, тому знання відносної щедрості недостатньо.
Ваш висновок може залежати від того, наскільки "об'єктивним" ви вважаєте остаточну абсолютну оцінку. Однією з ментальних моделей було б запропонувати кожному студенту мати "правильну" оцінку - ту, яку присвоїв би провідний оцінювач, якби встиг позначити кожен документ окремо, - до якого оцінені оцінки наближаються. У цій моделі спостережувані оцінки потрібно компенсувати їх класові, щоб максимально наблизити їх до незабезпеченого «справжнього» оцінку. Іншою моделлю може бути те, що всяке оцінювання є суб'єктивним, і ми прагнемо перетворити кожну спостережувану оцінку на позначку, яку ми передбачаємо, що вона була б присвоєна, якби всі грейдери розглядали один і той же папір і досягали якогось компромісного чи середнього оцінок для нього. Я вважаю другу модель менш переконливою як рішення, навіть якщо визнання суб'єктивності більш реалістичним. У навчальній обстановці зазвичай є хтось, хто несе остаточну відповідальність за оцінку, за те, щоб студенти отримували "оцінку, яку вони заслуговували", але ця головна роль по суті звільнила відповідальність перед самими грейнерами, про яких ми вже знаємо, що вони помітно не погоджуються. Звідси я припускаю, що тамце одна «правильна» оцінка, яку ми прагнемо оцінити, але це суперечлива пропозиція і може не відповідати вашим обставинам.
Припустимо, учні A, B, C і D, які знаходяться в одній когорті, "повинні" оцінюватися відповідно 75, 80, 85 і 90, але їхній щедрий клас постійно оцінює 5 балів занадто високо. Ми спостерігаємо 80, 85, 90 і 95 і повинні відняти 5, але знайти фігуру для віднімання проблематично. Це неможливо зробити, порівнюючи результати між когортами, оскільки ми очікуємо, що когорти відрізнятимуться середньою здатністю. Однією з можливостей є використання результатів тестування з декількома варіантами для прогнозування правильних балів у другому завданні, а потім використовувати це для оцінки варіацій між кожним класом та правильними оцінками. Але робити це передбачення нетривіально - якщо ви очікуєте різного середнього та стандартного відхилень між двома оцінками, ви не можете просто припустити, що другі оцінки повинні відповідати першим.
Також студенти відрізняються відносною здатністю при багатократному виборі та письмових оцінках. Ви можете ставитися до цього як до якогось випадкового ефекту, утворюючи компонент "спостережуваних" та "справжніх" оцінок учня, але не захоплений їх "передбачуваною" оцінкою. Якщо когорти систематично відрізняються, а студенти в когорті, як правило, подібні, то не слід очікувати, що цей ефект в середньому дорівнює нулю в межах кожної групи. Якщо спостережувані групи когорти в середньому +5 проти прогнозованих, це неможливощоб визначити, чи це пов’язано з щедрою грейдерною групою, когорта особливо краще підходить для письмового оцінювання, ніж множинний вибір, або якась комбінація обох. В крайньому випадку, когорта може мати навіть меншу придатність при другій оцінці, але це було б більш ніж компенсовано дуже щедрим грейдером - або навпаки. Ви не можете розірвати це. Це збентежено.
Я також сумніваюся у достатності такої простої моделі добавок для ваших даних. Грейдери можуть відрізнятися від провідного оцінювача не лише за зміною місця розташування, а й за поширенням - хоча оскільки групи, можливо, різняться за однорідністю, ви не можете просто перевірити поширення спостережуваних класів у кожній когорті, щоб виявити це. Більше того, основна частина дистрибуції має високі бали, досить близькі до теоретичного максимуму 100. Я б передбачив, що це введення нелінійності через стиснення майже до максимуму - дуже щедрий грейдер може дати позначки A, B, C і D, як 85, 90, 94, 97. Повернути це важче, ніж просто відняти константу. Гірше, що ви можете побачити "відсікання" - надзвичайно щедрий грейдер може оцінити їх як 90, 95, 100, 100. Це неможливоповернути назад, а інформація про відносну продуктивність C і D безповоротно втрачається.
Ваші грейдери поводяться зовсім інакше. Ви впевнені, що вони відрізняються лише своєю загальною щедрістю, а не своєю щедрістю в різних компонентах оцінки? Це, можливо, варто перевірити, оскільки це може спричинити різні ускладнення - наприклад, спостережуваний бал для B може бути гіршим, ніж показник A, незважаючи на те, що B на 5 балів "кращий", навіть якщо виділені оцінювачі для кожного компонента оцінювачі монотонно зростають провідного оцінювача! Припустимо, оцінка розділена між Q1 (A має оцінку 30/50, B 45/50) та Q2 (A має оцінку 45/50, B 35/50). Уявіть, що грейдер дуже поблажливий до Q1 (спостережені класи: A 40/50, B 50/50), але суворий щодо Q2 (спостерігається: A 42/50, 30/50), тоді ми спостерігаємо загальну кількість 82 для A і 80 для B. Якщо вам доведеться враховувати бали компонентів,
Можливо, це розширений коментар, а не відповідь, в тому сенсі він не пропонує конкретного рішення в межах початкової межі вашої проблеми. Але якщо ваші грейдери вже обробляють близько 55 паперів у кожній, то чи так це погано для них, щоб з метою калібрування переглянути ще п’ять чи десять? Ви вже маєте гарне уявлення про здібності учнів, тому зможете підібрати зразок робіт прямо з усіх класів. Потім ви можете оцінити, чи потрібно компенсувати щедрість грейдера у всьому тесті або в кожному компоненті, і чи потрібно це робити лише додаванням / відніманням константи або чимось більш складним, як-от інтерполяція (наприклад, якщо ви переживаєте за не- лінійність біля 100). Але слово попередження про інтерполяцію: припустимо, що провідний оцінювач відзначає п'ять зразків робіт як 70, 75, 80, 85 і 90, в той час як грейдер оцінює їх як 80, 88, 84, 93 і 96, тому існує певна незгода щодо порядку. Ймовірно, ви хочете відобразити оцінені оцінки від 96 до 100 на інтервалі 90 до 100, а спостережувані оцінки від 93 до 96 на інтервалі від 85 до 90. Але певна думка потрібна для оцінок нижче цього. Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу". Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу". Можливо, спостережувані оцінки від 84 до 93 слід віднести до інтервалу 75 до 85? Альтернативою може бути (можливо, поліноміальна) регресія для отримання формули для "передбачуваної справжньої оцінки" від "спостережуваного класу".