Як я можу використовувати ці дані для калібрування маркерів з різним рівнем щедрості при оцінці студентських робіт?


9

12 викладачів навчають 600 учнів. 12 когорт, яких викладали ці викладачі, становлять від 40 до 90 учнів, і ми очікуємо систематичних відмінностей між когортами, оскільки аспіранти були непропорційно розподілені до певних груп, а попередній досвід показав, що аспіранти в середньому на бал значно вищі, ніж студенти магістратури.

Викладачі оцінили всі документи у своїй когорті та присвоїли їм оцінку із 100.

Кожен учитель також розглядав один випадково вибраний папір від трьох інших вчителів, і давав йому оцінку з 100. Кожен вчитель мав три свої документи, позначені іншим учителем. 36 різних паперів таким чином було перекреслено таким чином, і я називаю це моїми даними калібрування.

Я також бачу, скільки аспірантів було в кожній когорті.

Мої запитання:

A) Як я можу використовувати ці дані калібрування для коригування початкових знаків, щоб зробити їх справедливішими? Зокрема, я хотів би максимально вимити наслідки надмірно щедрих / недоброзичливих виробників.

Б) Наскільки відповідні мої дані калібрування? У мене не було вибору щодо досить обмежених 36 точок даних даних калібрування, які я отримав у цьому курсі, і не маю жодної можливості збирати більше протягом поточного семестру. Однак якщо ця ситуація повториться, можливо, я зможу зібрати більше даних про калібрування або зібрати різні типи даних калібрування.

Це питання є відносним до популярного питання, яке я задав у: Як я можу найкраще боротися з ефектами маркерів з різним рівнем щедрості при оцінюванні студентських робіт? . Однак це інший курс, і я не впевнений, наскільки корисне читання цього питання буде основою для цього поточного, оскільки головна проблема полягала в тому, що я не мав даних про калібрування.

Відповіді:


6

Це звучить як чудова можливість використовувати систему рекомендацій матричної факторизації . Коротко це працює так:

  • Помістіть свої спостереження в частково спостережувану матрицюM де Mij - це вчитель партитури i віддали студенту j.

  • Припустимо, що ця матриця є зовнішнім продуктом деяких прихованих векторів ознак, t і s--це є, Mij=tisj.

  • Вирішіть для прихованих векторів ознак, які мінімізують помилку відновлення у квадраті i,j(tisjMij)2 (де сума варіюється за всіма спостережуваними осередками M).

  • Ви можете виконати цей стиль максимізації очікування, встановивши здогадку t і рішення для s через найменші квадрати, а потім виправити цю здогадку s і рішення для t і ітерація до конвергенції.

Зауважте, що це дає досить сильне припущення щодо форми упередженості вчителя - зокрема, якщо ви вважаєте, що латентні особливості учнів є їх "справжньою оцінкою", то ухил викладача множує кожну справжню оцінку на постійну суму (до зробіть це додатково замість цього, ви б експонували оцінки, які ви вставляєте в матрицю, а потім вивчите експоненції "справжніх балів"). Маючи так мало даних про калібрування, ви, ймовірно, не можете зайти дуже далеко, не зробивши чіткого припущення про цю форму, але якщо у вас було більше даних, ви можете додати другий вимір прихованих ознак тощо (тобто, припустимоMij=k=1nsiktkj і знову спробуйте мінімізувати помилку відновлення у квадраті).


EDIT: щоб мати чітко визначену проблему, вам потрібно мати більше матричних операцій, ніж прихованих параметрів (або ви можете використовувати якусь регуляризацію). У вас це ледве є (у вас 636 спостережень і 612 прихованих параметрів), тому матрична факторизація може не працювати надто добре - я не працював з ними на таких невеликих зразках, тому я не знаю насправді.

Якщо калібрування виявляється недостатнім для використання гарної моделі рекомендації, ви можете спробувати багаторівневу регресію Score ~ IsGradStudent + <whatever other student covariates you have> + (1|Teacher)(ігноруючи дані калібрування) для вилучення оцінок додаткового зміщення викладача, а потім перевірити, чи відповідає це зміщення даним про калібрування. взяли. (Ви повинні дозволити, якщо можливо, гетероскедастичність учителем.) Це більш спеціально, але може створити менш серйозні проблеми зі збиранням даних.


Для розширення цього питання я б, напевно, почав із простої моделі з фіксованими ефектами вчителя та потенційно згрупованими стійкими стандартними помилками (див. Цю публікацію в блозі для обговорення цього питання в R), а потім порівняти фіксовані ефекти для будь-яких людей, що втратили життя. У R щось подібне lm(score ~ gradStudent + ... + teacherIDповинно це робити.
iacobus

2

Ось пара суміжних підходів.

Візьміть набір паперів, позначених більш ніж одним учителем, оскільки вони містять найбільше інформації про ефекти вчителя і поза цими документами, ефекти вчителя та когорти збиваються з пантелику (якщо якийсь спосіб отримати ефект когорти - можливо, через GPA або якийсь інший предиктор, наприклад, ви могли б використовувати всі дані, але це дуже ускладнить моделі).

Позначте учнів i=1,2,...n, і маркери j=1,2,...,m. Нехай набір знаків будеyij,i=1,2,...m.

Спочатку ви повинні розглянути вашу модель, як застосовується ефект маркера. Це добавка? Це мультиплікативно? Чи потрібно хвилюватися з приводу граничних ефектів (наприклад, чи буде краща добавна чи мультиплікативна дія на шкалі logit)?

Уявіть два задані маркери на двох паперах і уявіть, що другий маркер є щедрішим. Скажімо, перший маркер дав би папірці 30 та 60. Чи буде другий маркер додати до обох постійну кількість марок (скажімо, 6 марок)? Чи будуть вони, як правило, додавати постійні відсотки (скажімо, 10% на обидва, або 3 марки проти 6 марок)? Що робити, якщо перший маркер дав 99? - що було б тоді? Що з 0? Що робити, якщо другий маркер був менш щедрий? що буде з 99 або 0? (саме тому я згадую модель logit - можна трактувати позначки як пропорцію можливих знаків (pij=mij/100), і тоді ефектом маркера може бути додавання константи (скажімо) до logit p - тобто log(pij/(1pij)).

(Тут у вас не буде достатньо даних, щоб оцінити форму щедрості, а також її розмір. Ви повинні вибрати модель, зважаючи на своє розуміння ситуації. Також вам потрібно буде ігнорувати будь-яку можливість взаємодії; у вас немає мати дані для цього)

Можливість 1 - проста модель добавки. Це може бути доречним, якщо жодна позначка не була б близькою до 0 або 100:

Розглянемо подібну модель E(yij)=μi+τj

Це по суті двостороння ANOVA. Для цього вам потрібні обмеження, щоб ви могли встановити кодування відхилень / налаштувати модель таким чином, щоб маркерні ефекти дорівнювали 0, або ви могли б встановити модель, де один маркер є базовою лінією (ефект якої 0 і чиї позначки ви спробує налаштувати кожен інший маркер у бік).

Потім візьміть τ^j значення та коригування ширшої сукупності знаків ykjadj=ykjτ^j.

Можливість 2: Насправді, подібний вид ідеї, але E(yij)=μiτj. Тут вам може підійти нелінійна модель найменших квадратів або GLM з логістичним посиланням (я, мабуть, схиляюся до другого з цих двох). Знову вам потрібно обмеження наτс.

Тоді відповідне коригування було б розділити на τj^.

Можливість 3: добавка за шкалою logit. Це може бути більш підходящим, якщо деякі позначення наблизяться до 0 або 100. Це буде виглядати приблизно мультипликативно для дуже малих оцінок, добавка для середніх марок і приблизно мультипликативна в1p=(100m)/100за дуже високі оцінки. Ви можете використовувати бета-регресію або квазі-біноміальний GLM з посиланням logit, щоб відповідати цій моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.