Експертне оцінювання - вибір графіка, щоб отримати точні рейтинги / оцінки


9

Фон Я пишу деякий код для напівавтоматизованого оцінювання, використовуючи однорангову оцінку як частину процесу класифікації. Студенти отримують пари есе одночасно, і студенти мають слайдер, щоб вибрати, який краще і наскільки краще. наприклад, слайдер може виглядати приблизно так:

A---X-B

На основі результатів однорангової оцінки есе складають рейтинг, а потім вчитель оцінює верхній X% і нижній X%, а оцінки за всі реферати будуть автоматично розраховані на основі цього. Я вже придумав методи проведення цього рейтингу / оцінювання; ця частина працює добре.

Моє запитання. Як слід вибрати, які пари есе надати студентам?

Симулятори передбачають, що нам потрібно зробити есе, принаймні 3 рази, щоб отримати точну оцінку. Таким чином, кожен нарис повинен з’являтися принаймні у 3 парах, які представлені для однорангової оцінки.

Ми можемо вважати це проблемою графіка. Подумайте про нариси як про вузли. Кожен край являє собою пару есе, які представлені в процесі однорангової оцінки. Наведені вище результати точності говорять про те, що ступінь кожного вузла (або більшості вузлів) має бути не менше 3. Який графік я повинен використовувати? Як я можу генерувати графік, який буде використовуватися під час однорангової класифікації?

Одним із викликів є те, що якщо у вас є кластери на графіку, це призведе до перекосу однорангових оцінок. Наприклад, ми б не хотіли, щоб високоякісні реферати були оцінені здебільшого проти високоякісних есе, оскільки це призведе до викривлення результатів однорангової оцінки.

Що б ти порадив?

Я думаю, що цю проблему можна змоделювати за допомогою ненаправленого графіка, використовуючи щось таке:

  • Почніть, взявши вузол з найменшим ступенем і зв’яжіть його з наступним найменшим
  • Продовжуйте, поки ваш середній ступінь не буде принаймні 3
  • Максимізуйте підключення до вузла
  • Мінімізуйте кількість кліків

Це хороший підхід? Якщо ні, що б ви порадили замість цього?


Це може бути цікавим додатком для розширювачів . Ви намагалися організувати завдання в розширювачі?
Шоул

ваше уявлення про краї здається напівправим. краї вказують лише на порівняння, яке відбулося, а не на результат порівняння. тому просто наявність / відсутність ребер не кодує багато інформації, лише порівняння, що мали місце. природний спосіб вирішити проблему передбачає зважені / спрямовані краї, де напрямок є, наприклад, до сприятливих ... це здається схожим на проблему потоку ... ви кажете "повзунок", чи багатозначний? чи двійкові? "слайдер" звучав для мене багатозначним, як рейтинг.
vzn

Чи можете ви уточнити, у чому ваше запитання? Ви питаєте про те, як вибрати графік? Або ви запитуєте про те, з урахуванням графіка та набору оцінок для кожного краю, як класифікувати всі реферати? Перший підпадає під загальну категорію "експериментальний дизайн" (і моя відповідь стосується цього); останні, під загальною категорією "аналіз даних" (і моя відповідь, і відповідь vzn дають корисні ресурси для цього).
DW

Насправді ми розробили рейтинг та підрахунок балів, але будемо намагатись підходу нижче.
ismail

в деяких аналізах подібних проблем слова "рейтинг" і "оцінка" є взаємозамінними. тепер це випливає з подальшого огляду та редагування, у вашій системі ви називаєте "ранжирування" як комп'ютерну оцінку ранжу на основі даних порівняння, а "бал" як суб'єктивне рішення, засноване на людині, щодо якості есе (також зазвичай називають "класифікацією"), яка слідкує за процесом ранжирування. & ти головним чином зацікавлений у поширенні пар порівняння ...
vzn

Відповіді:


7

Для цього є дві частини: (a) вибір графіка ( експериментальна конструкція ), щоб визначити, які пари есеїсти оцінюватимуть студенти в процесі однорангової оцінки, та (b) ранжування всіх есе, заснованих на оцінках однолітків студента, до визначте, до якого викладача належить класифікувати. Я запропоную кілька методів для кожного.

Вибір графіка

Постановка проблеми. Перший крок - це створення графіка. Іншими словами, вам потрібно вибрати, які пари нарисів показати учням, під час вправи на оцінку рівних.

Пропоноване рішення. Для цього завдання пропоную створити випадковий графікГ, вибрані рівномірно випадково з набору всіх 3-регулярних (простих) графіків.

Обґрунтування та деталі. Відомо, що випадковийг-регулярний графік - хороший розширювач. Насправді, звичайні графіки мають асимптотично оптимальним коефіцієнтом розширення. Крім того, оскільки графік є випадковим, це повинно усунути ризик перекосу оцінок. Вибираючи графік рівномірно, ви гарантуєте, що ваш підхід однаково справедливий для всіх учнів. Я підозрюю, що рівномірно випадковий 3-регулярний графік буде оптимальним для ваших цілей.

Це викликає питання: як вибрати 3-регулярний (простий) графік н вершини, рівномірно навмання?

На щастя, існують відомі алгоритми для цього. В основному ви робите наступне:

  1. Створіть 3нбали. Ви можете подумати про це як 3 примірники кожного знвершин. Створіть, рівномірно, навмання, випадкове ідеальне узгодження на них3нбали. (Іншими словами, повторіть наступну процедуру, поки всі3н очки спарюються: виберіть будь-яку непарну точку та з'єднайте її з іншою точкою, вибраною навмання рівномірно, із набору неспарених точок.

  2. Для кожної двох точок, які відповідають зіставленням, намалюйте край між відповідними вершинами (що вони є копією). Це дає вам графік нан вершин.

  3. Далі перевірте, чи отриманий графік простий (тобто він не має самокрут і не повторюється ребер). Якщо це не просто, відкиньте графік і поверніться до кроку 1. Якщо це просто, ви закінчите; вивести цей графік.

Відомо, що ця процедура генерує рівномірний розподіл на множині 3-регулярних (простих) графіків. Також відомо, що на кроці 3 у вас є постійна ймовірність прийняття отриманого графіка, тому в середньому алгоритм буде робитиО(1) випробування - тому це досить ефективно (наприклад, час роботи поліномів).

Я бачив, як цей підхід зараховують до Болобаса, Бендера та Кенфілда. Підхід також коротко узагальнений у Вікіпедії . Ви також можете знайти дискусію в цій публікації в блозі .

Технічно кажучи, це вимагає, щоб число н бути рівним (інакше немає 3-регулярного графіка на нвершини). Однак з цим легко впоратися. Наприклад, якщонце не дивно, ви можете випадковим чином вибрати один есе, відкласти його, створити випадковий 3-регулярний графік на решті рефератів, а потім додати ще 3 ребра з відкладеного есе до 3 випадково вибраних інших нарисів. (Це означає, що буде 3 нариси, які насправді оцінюються 4 рази, але це не повинно принести ніякої шкоди.)

Рейтинг усіх есе

Постановка проблеми. Гаразд, тепер у вас є графік, і ви подали учням ці пари есе (як зазначено ребрами на графіку) для того, щоб вони оцінювались під час вправи на рівну оцінку. У вас є результати кожного порівняння нарисів. Тепер ваше завдання зробити лінійний рейтинг за всіма рефератами, щоб допомогти вам визначити, які з них слід оцінити вчителем.

Рішення. Я запропонував вам використовувати модель Бредлі-Террі . Саме математичний підхід вирішує саме цю проблему. Він був розроблений для рейтингу гравців у деяких видах спорту на основі результатів матчів між деякими парами гравців. Передбачається, що у кожного гравця є (невідома) сила, яку можна кількісно оцінити як реальну кількість, а ймовірність того, що Аліса переможе Боба, визначається якоюсь плавною функцією різниці їх сильних сторін. Потім, враховуючи попарні записи про виграш / програш, він оцінює силу кожного гравця.

Це повинно бути ідеально для вас. Ви можете ставитися до кожного есе як до гравця. Кожне порівняння двох рефератів (у процесі однорангової оцінки) є результатом збігу між ними. Модель Бредлі-Террі дозволить вам взяти всі ці дані та зробити висновок про силу для кожного реферату, де більш сильні сторони відповідають кращим нарисам. Тепер ви можете використати ці сильні сторони, щоб упорядкувати всі есе.

Деталі та обговорення. Насправді модель Бредлі-Террі навіть краща за те, про що ви просили. Ви запитували про лінійний рейтинг, але модель Бредлі-Террі фактично дає рейтинг (реальну кількість) кожному реферату. Це означає, що ви знаєте не лише те, чи твірi сильніше, ніж нарис j, але приблизна оцінка того, наскільки вона сильніша. Наприклад, ви можете використовувати це для того, щоб повідомити про свій вибір рефератів.

Існують альтернативні способи зробити висновки або рейтинги для всіх рефератів, враховуючи наявні у вас дані. Наприклад, метод Ело - це інший. Я підсумовую декілька з них у своїй відповіді на інше питання ; прочитайте цю відповідь для отримання більш детальної інформації.

Ще один коментар: Модель Бредлі-Террі передбачає, що результатом кожного порівняння двох гравців є виграш або програш (тобто бінарний результат). Однак, це здається, що ви насправді матимете більш детальні дані: ваш слайдер дасть приблизну оцінку того, наскільки краще одноліток оцінив один твір, ніж інший. Найпростішим підходом було б просто відобразити кожен слайдер на бінарний результат. Однак якщо ви дійсно хочете, можливо, ви зможете використовувати всі дані, скориставшись більш досконалим аналізом. Модель Бредлі-Террі передбачає проведення логістичної регресії. Якщо ви узагальнюєте це, щоб використовувати впорядкований logit , я думаю, що ви можете скористатися додатковою інформацією, яку ви маєте від кожного слайдера, враховуючи, що результати слайдерів не є двійковими, але є однією з кількох можливостей.

Ефективне використання викладача

Ви пропонуєте, щоб учитель вручну оцінював верхній X% та нижній X% усіх рефератів (використовуючи ранжирування, що випливає з результатів рівного оцінювання). Це може спрацювати, але я підозрюю, що це не найефективніше використання обмеженого часу вчителя. Натомість я хотів би запропонувати альтернативний підхід.

Я пропоную вам мати оцінку викладача як підмножину рефератів, при цьому підмножина ретельно підібрана, щоб спробувати забезпечити найкращу можливу калібрування для всіх рефератів, які не були оцінені вчителем. Для цього я думаю, що це може допомогти, якщо ви вибрали зразок рефератів, що охоплюють коло можливих відповідей (тому для кожного реферату є якийсь есе, оцінене вчителем, яке не надто далеко від нього). Для цього я можу придумати два підходи, які ви можете розглянути:

  • Кластеризація. Візьміть рейтинги, які виробляються моделлю Terry-Bradley. Це набірнреальні числа, одне реальне число за есе. Тепер кластеризуйте їх. Припустимо, ви хочете мати оцінку вчителякнариси. Одним із підходів було б використанняк- означає кластеризацію (на цих одновимірних точках даних) для кластеризації есе к кластери, а потім випадковим чином вибирають по одному реферату з кожного кластеру для вчителя, щоб оцінити його, - або вчителі оцінюють "голову кластера" кожного кластеру.

  • Найперший пункт. Альтернативою є спробувати вибрати підмножинукнариси, які максимально відрізняються один від одного. Алгоритм "найдальший перший" (FPF) - це чіткий підхід до цього. Припустимо, що у вас є деяка функція дистанціїг(еi,еj) що дозволяє оцінити відстань між двома есе еi і еj: невелика відстань означає, що нариси схожі, більша відстань означає, що вони різні. Дано набірS нарисів, нехай г(е,S)=хве'Sг(е,е') бути відстань від е до найближчого реферату в S. Найдальший перший алгоритм обчислює списокк нариси, е1,е2,,ек, наступним чином: еi+1 це твір, який максимально збільшується г(е,{е1,е2,,еi}) (з усіх есе е такий як е{е1,е2,,еi}). Цей алгоритм генерує набірк нариси, які максимально відрізняються один від одного - це означає, що кожен з решти рефератів дуже схожий хоча б на один із цих к. Тому було б розумно мати викладача оцінкук нариси, обрані алгоритмом FPF.

Я підозрюю, що будь-який із цих підходів може дати більш точні оцінки, ніж те, що вчитель оцінює верхній X% і нижній X% нарисів - оскільки самі найкращі та найгірші нариси, ймовірно, не є представником маси есе в середині.

В обох підходах ви могли б використовувати більш досконалу функцію відстані, яка враховує не лише оцінки міцності, що базуються на рівній оцінці, але й інші фактори, отримані з есе. Найпростіша можлива функція відстані враховувала б лише результат моделі Террі-Бредлі, тобтог(е1,е2)=(с(е1)-с(е2))2 де с(е) - сила есе еяк оцінено за моделлю Террі-Бредлі на основі результатів однорангової оцінки. Однак ви можете зробити щось більш складне. Наприклад, ви можете обчислити нормалізовану відстань редагування Левенштайна між есее1 і е2(трактує їх як текстові рядки, обчислює відстань редагування та ділить на довжину більшої з двох) і використовує це як ще один фактор функції відстані. Ви також можете обчислити функції векторів, використовуючи модель пакетів слів на словах у нарисах, а також використовувати відстань L2 між цими функційними векторами (з функціями, нормалізованими за допомогою tf-idf), як інший фактор функції відстані. Ви можете використовувати функцію відстані, яка є середньозваженою середньою різницею сильних сторін (на основі оцінок Террі-Бредлі), нормованої відстані редагування та будь-чого іншого, що здається корисним. Така більш вдосконалена функція дистанції може допомогти зробити кращу роботу, допомагаючи алгоритму кластеризації вибрати найкращік нариси, щоб мати оцінку вчителя.


важко дотримуватися відносно оригінальної постановки проблеми. Ви вирішуєте проблему рівномірного розподілу порівнянь?
vzn

2
@vzn, я змінив свою відповідь, щоб уточнити. Здається, питання задає питання про те, як вибрати графік, тобто, які пари реферат попросити учнів порівняти під час однорангової оцінки. Перша половина моєї відповіді дає вирішення цього питання. Друга частина моєї відповіді описує, як використовувати результати однорангової оцінки для упорядкування всіх есе, щоб допомогти вчителю вибрати, які реферати оцінювати.
DW

0

кілька ідей, що базуються на вашому не зовсім точному описі входів та результатів, і що слід обчислити (можливо, ви можете переглянути своє запитання, враховуючи це).

мабуть, це в основному проблема "гарячого чи ні" "фейшмашу", яка виникла з моменту заснування Facebook (як зображено у фільмі "соціальна мережа"). в оригінальній "грі" користувачі мали дві картинки і вибирали між більш привабливою самкою. у вашій системі вибір між двома нарисами, один з яких кращий.

Очевидно, що з кібер-фольклору, очевидно, алгоритми ранжування Ело, використовувані в системах підрахунку шахових матчів, можуть бути використані для обчислення збіжного рішення (у цьому випадку в основному оцінюють оцінку есе відповідно до вираженого графіка переважних переваг), але ще не бачили уважного опис / запис цього.

інший варіант - використовувати Pagerank. що обчислює оцінений вплив сторінки на основі графа спрямованого посилання. уподобання до есе є аналогічними посиланням на веб-сторінку.

ця проблема також схожа на аналіз цитування, де наукові праці цитують інші статті та оцінюється вплив робіт. [але зауважте, що Pagerank також є провідним алгоритмом у цій галузі.]

[1] навіщо використовувати рейтинг Elo для алгоритму facemash? переповнення стека

[2] Система ранжування Elo , wikipedia

[3] Pagerank , wikipedia

[4] аналіз цитування , вікіпедія


ескіз того, як застосувати Elo: ігрові матчі - це як порівняння есе. есе має бали, і більш високі оглядові есе повинні виграти більше збігів. алгоритм обчислює бали, які найбільш відповідають всім збігам.
vzn

Зауважте, ідеї цитування, як правило, припускають, що всі порівняння дещо рівномірно розподілені по всіх нарисах, інакше, якщо одне есе буде в більшій кількості порівнянь, це може збільшити його відносну прихильність. тому частина цього підходу також врівноважує порівняння, на які ви, мабуть, посилаєтесь, & схоже на проблему спроби розподілити матчі на всіх гравців ...
vzn
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.