Для цього є дві частини: (a) вибір графіка ( експериментальна конструкція ), щоб визначити, які пари есеїсти оцінюватимуть студенти в процесі однорангової оцінки, та (b) ранжування всіх есе, заснованих на оцінках однолітків студента, до визначте, до якого викладача належить класифікувати. Я запропоную кілька методів для кожного.
Вибір графіка
Постановка проблеми. Перший крок - це створення графіка. Іншими словами, вам потрібно вибрати, які пари нарисів показати учням, під час вправи на оцінку рівних.
Пропоноване рішення. Для цього завдання пропоную створити випадковий графікГ, вибрані рівномірно випадково з набору всіх 3-регулярних (простих) графіків.
Обґрунтування та деталі. Відомо, що випадковийг-регулярний графік - хороший розширювач. Насправді, звичайні графіки мають асимптотично оптимальним коефіцієнтом розширення. Крім того, оскільки графік є випадковим, це повинно усунути ризик перекосу оцінок. Вибираючи графік рівномірно, ви гарантуєте, що ваш підхід однаково справедливий для всіх учнів. Я підозрюю, що рівномірно випадковий 3-регулярний графік буде оптимальним для ваших цілей.
Це викликає питання: як вибрати 3-регулярний (простий) графік н вершини, рівномірно навмання?
На щастя, існують відомі алгоритми для цього. В основному ви робите наступне:
Створіть 3 нбали. Ви можете подумати про це як 3 примірники кожного знвершин. Створіть, рівномірно, навмання, випадкове ідеальне узгодження на них3 нбали. (Іншими словами, повторіть наступну процедуру, поки всі3 н очки спарюються: виберіть будь-яку непарну точку та з'єднайте її з іншою точкою, вибраною навмання рівномірно, із набору неспарених точок.
Для кожної двох точок, які відповідають зіставленням, намалюйте край між відповідними вершинами (що вони є копією). Це дає вам графік нан вершин.
Далі перевірте, чи отриманий графік простий (тобто він не має самокрут і не повторюється ребер). Якщо це не просто, відкиньте графік і поверніться до кроку 1. Якщо це просто, ви закінчите; вивести цей графік.
Відомо, що ця процедура генерує рівномірний розподіл на множині 3-регулярних (простих) графіків. Також відомо, що на кроці 3 у вас є постійна ймовірність прийняття отриманого графіка, тому в середньому алгоритм буде робитиO ( 1 ) випробування - тому це досить ефективно (наприклад, час роботи поліномів).
Я бачив, як цей підхід зараховують до Болобаса, Бендера та Кенфілда. Підхід також коротко узагальнений у Вікіпедії . Ви також можете знайти дискусію в цій публікації в блозі .
Технічно кажучи, це вимагає, щоб число н бути рівним (інакше немає 3-регулярного графіка на нвершини). Однак з цим легко впоратися. Наприклад, якщонце не дивно, ви можете випадковим чином вибрати один есе, відкласти його, створити випадковий 3-регулярний графік на решті рефератів, а потім додати ще 3 ребра з відкладеного есе до 3 випадково вибраних інших нарисів. (Це означає, що буде 3 нариси, які насправді оцінюються 4 рази, але це не повинно принести ніякої шкоди.)
Рейтинг усіх есе
Постановка проблеми. Гаразд, тепер у вас є графік, і ви подали учням ці пари есе (як зазначено ребрами на графіку) для того, щоб вони оцінювались під час вправи на рівну оцінку. У вас є результати кожного порівняння нарисів. Тепер ваше завдання зробити лінійний рейтинг за всіма рефератами, щоб допомогти вам визначити, які з них слід оцінити вчителем.
Рішення. Я запропонував вам використовувати модель Бредлі-Террі . Саме математичний підхід вирішує саме цю проблему. Він був розроблений для рейтингу гравців у деяких видах спорту на основі результатів матчів між деякими парами гравців. Передбачається, що у кожного гравця є (невідома) сила, яку можна кількісно оцінити як реальну кількість, а ймовірність того, що Аліса переможе Боба, визначається якоюсь плавною функцією різниці їх сильних сторін. Потім, враховуючи попарні записи про виграш / програш, він оцінює силу кожного гравця.
Це повинно бути ідеально для вас. Ви можете ставитися до кожного есе як до гравця. Кожне порівняння двох рефератів (у процесі однорангової оцінки) є результатом збігу між ними. Модель Бредлі-Террі дозволить вам взяти всі ці дані та зробити висновок про силу для кожного реферату, де більш сильні сторони відповідають кращим нарисам. Тепер ви можете використати ці сильні сторони, щоб упорядкувати всі есе.
Деталі та обговорення. Насправді модель Бредлі-Террі навіть краща за те, про що ви просили. Ви запитували про лінійний рейтинг, але модель Бредлі-Террі фактично дає рейтинг (реальну кількість) кожному реферату. Це означає, що ви знаєте не лише те, чи твірi сильніше, ніж нарис j, але приблизна оцінка того, наскільки вона сильніша. Наприклад, ви можете використовувати це для того, щоб повідомити про свій вибір рефератів.
Існують альтернативні способи зробити висновки або рейтинги для всіх рефератів, враховуючи наявні у вас дані. Наприклад, метод Ело - це інший. Я підсумовую декілька з них у своїй відповіді на інше питання ; прочитайте цю відповідь для отримання більш детальної інформації.
Ще один коментар: Модель Бредлі-Террі передбачає, що результатом кожного порівняння двох гравців є виграш або програш (тобто бінарний результат). Однак, це здається, що ви насправді матимете більш детальні дані: ваш слайдер дасть приблизну оцінку того, наскільки краще одноліток оцінив один твір, ніж інший. Найпростішим підходом було б просто відобразити кожен слайдер на бінарний результат. Однак якщо ви дійсно хочете, можливо, ви зможете використовувати всі дані, скориставшись більш досконалим аналізом. Модель Бредлі-Террі передбачає проведення логістичної регресії. Якщо ви узагальнюєте це, щоб використовувати впорядкований logit , я думаю, що ви можете скористатися додатковою інформацією, яку ви маєте від кожного слайдера, враховуючи, що результати слайдерів не є двійковими, але є однією з кількох можливостей.
Ефективне використання викладача
Ви пропонуєте, щоб учитель вручну оцінював верхній X% та нижній X% усіх рефератів (використовуючи ранжирування, що випливає з результатів рівного оцінювання). Це може спрацювати, але я підозрюю, що це не найефективніше використання обмеженого часу вчителя. Натомість я хотів би запропонувати альтернативний підхід.
Я пропоную вам мати оцінку викладача як підмножину рефератів, при цьому підмножина ретельно підібрана, щоб спробувати забезпечити найкращу можливу калібрування для всіх рефератів, які не були оцінені вчителем. Для цього я думаю, що це може допомогти, якщо ви вибрали зразок рефератів, що охоплюють коло можливих відповідей (тому для кожного реферату є якийсь есе, оцінене вчителем, яке не надто далеко від нього). Для цього я можу придумати два підходи, які ви можете розглянути:
Кластеризація. Візьміть рейтинги, які виробляються моделлю Terry-Bradley. Це набірнреальні числа, одне реальне число за есе. Тепер кластеризуйте їх. Припустимо, ви хочете мати оцінку вчителякнариси. Одним із підходів було б використанняк- означає кластеризацію (на цих одновимірних точках даних) для кластеризації есе к кластери, а потім випадковим чином вибирають по одному реферату з кожного кластеру для вчителя, щоб оцінити його, - або вчителі оцінюють "голову кластера" кожного кластеру.
Найперший пункт. Альтернативою є спробувати вибрати підмножинукнариси, які максимально відрізняються один від одного. Алгоритм "найдальший перший" (FPF) - це чіткий підхід до цього. Припустимо, що у вас є деяка функція дистанціїг(еi,еj) що дозволяє оцінити відстань між двома есе еi і еj: невелика відстань означає, що нариси схожі, більша відстань означає, що вони різні. Дано набірS нарисів, нехай г( е , S) =хве'∈ Sг( е ,е') бути відстань від е до найближчого реферату в S. Найдальший перший алгоритм обчислює списокк нариси, е1,е2, … ,ек, наступним чином: еi + 1 це твір, який максимально збільшується г( е , {е1,е2, … ,еi} ) (з усіх есе е такий як e ∉ {е1,е2, … ,еi}). Цей алгоритм генерує набірк нариси, які максимально відрізняються один від одного - це означає, що кожен з решти рефератів дуже схожий хоча б на один із цих к. Тому було б розумно мати викладача оцінкук нариси, обрані алгоритмом FPF.
Я підозрюю, що будь-який із цих підходів може дати більш точні оцінки, ніж те, що вчитель оцінює верхній X% і нижній X% нарисів - оскільки самі найкращі та найгірші нариси, ймовірно, не є представником маси есе в середині.
В обох підходах ви могли б використовувати більш досконалу функцію відстані, яка враховує не лише оцінки міцності, що базуються на рівній оцінці, але й інші фактори, отримані з есе. Найпростіша можлива функція відстані враховувала б лише результат моделі Террі-Бредлі, тобтог(е1,е2) = ( s (е1) - с (е2))2 де s ( e ) - сила есе еяк оцінено за моделлю Террі-Бредлі на основі результатів однорангової оцінки. Однак ви можете зробити щось більш складне. Наприклад, ви можете обчислити нормалізовану відстань редагування Левенштайна між есее1 і е2(трактує їх як текстові рядки, обчислює відстань редагування та ділить на довжину більшої з двох) і використовує це як ще один фактор функції відстані. Ви також можете обчислити функції векторів, використовуючи модель пакетів слів на словах у нарисах, а також використовувати відстань L2 між цими функційними векторами (з функціями, нормалізованими за допомогою tf-idf), як інший фактор функції відстані. Ви можете використовувати функцію відстані, яка є середньозваженою середньою різницею сильних сторін (на основі оцінок Террі-Бредлі), нормованої відстані редагування та будь-чого іншого, що здається корисним. Така більш вдосконалена функція дистанції може допомогти зробити кращу роботу, допомагаючи алгоритму кластеризації вибрати найкращік нариси, щоб мати оцінку вчителя.