Рівняння в новинах: Переклад багаторівневої моделі на загальну аудиторію


24

"Нью-Йорк Таймс" довго коментує систему оцінювання "доданої вартості" вчителів, яка використовується для надання відгуків викладачам міста Нью-Йорк. Lede - це рівняння, яке використовується для обчислення балів - подано без контексту. Здається, риторична стратегія - це залякування математикою:

alt текст

Повний текст статті доступний за адресою: http://www.nytimes.com/2011/03/07/education/07winerip.html

Автор, Майкл Вінеріп, стверджує, що значення рівняння виходить за межі будь-кого, окрім, Метт Деймон, щоб зрозуміти, набагато менше середнього вчителя:

"Розрахунок за прогнозованою оцінкою 3,69 пані Ісааксон є ще більш непростим. Він базується на 32 змінних - у тому числі про те, чи було студента" утримано в класі до передтестового року "та чи студент" новачок у місті перед тестом чи після тесту " рік ».

Ці 32 змінні підключаються до статистичної моделі, схожої на одне з тих рівнянь, яке в «Полюванні на добру волю» вирішував лише Метт Деймон.

Процес видається прозорим, але він зрозумілий, як грязь, навіть для розумних непрофесійних людей, таких як вчителі, директори та - я соромлюсь це сказати - журналістів.

Пані Ісааксон може мати два ступеня Ліги плюща, але вона програна. "Мені це неможливо зрозуміти", - сказала вона.

Простий англійською мовою найкраща здогадка пані Ісааксон про те, що кафедра намагається сказати їй: Незважаючи на те, що 65 з її 66 студентів отримали кваліфікацію на державному тесті, більшість її 3-х років мали бути 4-х.

Але це лише здогад ».

Як би ви пояснили модель лайперсону? FYI, повний технічний звіт знаходиться за адресою:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Оновлення: Ендрю Гельман пропонує свої думки тут: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
[0%, 52%]

Відповіді:


12

Ось одна з можливостей.

Оцінити ефективність роботи вчителів традиційно складно. Одна з частин цієї складності полягає в тому, що різні студенти мають різний рівень зацікавленості певним предметом. Якщо даний студент отримує бал A, це не обов'язково означає, що викладання було чудовим - скоріше, це може означати, що дуже обдарований і зацікавлений студент зробив усе можливе, щоб досягти успіху, навіть незважаючи на низьку якість викладання. І навпаки, студент, який отримує ступінь D, не обов'язково означає, що викладання було поганим - скоріше, це може означати, що незацікавлений студент здійснював зусилля, незважаючи на всі зусилля викладача щодо навчання та натхнення.

Складність посилюється тим, що вибір студентів (а отже, і рівень зацікавленості студентів) далеко не випадковий. У школах прийнято акцентувати один предмет (або групу предметів) над іншими. Наприклад, школа може наголосити на технічних предметах над гуманітарними науками. Студенти в таких школах, напевно, настільки зацікавлені в технічних областях, що вони отримають прохідну оцінку навіть з найгіршим можливим вчителем. Таким чином, частка учнів, які проходять математику, не є хорошим показником викладання - ми очікуємо, що хороші вчителі будуть робити набагато краще, ніж це з учнями, які так хочуть вчитися. На відміну від тих самих студентів, можливо, зовсім не цікавляться мистецтвом. Важко було б очікувати навіть від найкращого вчителя, щоб усі студенти отримали оцінку А.

Ще одна складність полягає в тому, що не всі успіхи в даному класі пов'язані безпосередньо з викладачем цього класу. Швидше за все, успіх може бути зумовлений тим, що школа (або весь район) створюють мотивацію та основу для досягнення.

Щоб врахувати всі ці труднощі, дослідники створили модель, яка оцінює "додану вартість" вчителя. По суті, модель враховує сутнісні характеристики кожного учня (загальний рівень зацікавленості та успішність у навчанні), а також внесок школи та району в успішність учнів та прогнозує оцінку учнів, які можна було б очікувати із «середнім рівнем» викладання в цьому середовищі. Потім модель порівнює фактичні оцінки з прогнозованими і на основі неї вирішує, чи було викладання адекватним, враховуючи всі інші міркування, краще, ніж адекватне, або гірше. Хоча модель може здатися складною для нематематика, вона насправді досить проста і стандартна. Математики вже десятиліттями використовують подібні (і навіть більш складні) моделі.

Підводячи підсумок, здогадка пані Ісааксон правильна. Незважаючи на те, що 65 з її 66 учнів отримали знання на державному тесті, вони набрали б так само, навіть якби собака була їх вчителем. Дійсний хороший викладач дав би змогу цим учням досягти не просто «досвідчених», а фактично «хороших» балів на одному тесті.


На даний момент я міг би згадати деякі мої проблеми з моделлю. Наприклад, розробники моделі стверджують, що вона вирішує деякі труднощі з оцінкою якості викладання. Чи є у мене достатньо причин, щоб їм вірити? У мікрорайонах з населенням з нижчим рівнем доходу буде нижчий очікуваний показник «округ» та «школа». Скажімо, для району очікувана оцінка буде 2,5. Вчитель, який досягне в середньому 3, отримає хорошу оцінку. Це може спонукати вчителів орієнтуватися на бал 3, а не на оцінку, скажімо, 4 або 5. Іншими словами, вчителі будуть спрямовані на посередність, а не на вдосконалення. Ми хочемо, щоб це сталося? Нарешті, навіть незважаючи на те, що модель проста математично, вона працює дуже різним чином від того, як працює людська інтуїція. Як наслідок, у нас немає очевидного способу підтвердити або оскаржити модель " s рішення. Невдалий приклад пані Ісааксон ілюструє, до чого це може призвести. Чи хочемо ми сліпо залежати від комп’ютера у чомусь такому важливому?


Зауважте, що це пояснення лайперсону. Тут я обійшов декілька потенційно спірних питань. Наприклад, я не хотів сказати, що очікується, що шкільні округи з низьким рівнем доходів демографічні, вони бідніші, тому що це не буде добре для лайперсона.

Крім того, я припустив, що метою є насправді дати досить справедливий опис моделі. Але я майже впевнений, що це не мета NYT. Так що, принаймні, частина причин їх пояснення є поганою - це, на мою думку, навмисне FUD.


Я б, можливо, змінив друге речення останнього абзацу, щоб сказати: "Хоча 65 з її 66 учнів набрали" досвідчених "на державному тесті, вони, швидше за все, набрали б те саме, навіть якби у них був невмілий викладач".
Уейн

11

"Ваш бал викладання залежить від того, наскільки добре зробили ваші учні порівняно з прогнозом, зробленим на основі

  • Те, що вони знали заздалегідь, виміряне за допомогою тесту,

  • Наскільки добре ми думаємо, студенти можуть вчитися на основі того, що ми знаємо про них індивідуально (їх "характеристики"),

  • І наскільки добре в середньому студенти у вашому районі, школі та класі (якщо у вашому класі є інші вчителі).

"Іншими словами, ми оцінюємо вас, виходячи з кількості вимірюваного навчання , після розбиття факторів на підготовку та характеристик ваших учнів та типових виступів усіх учнів у таких умовах, як ваш, з наявними у вас ресурсами.

"Таким чином ваш бал відображає те, що ви сприяли студентським виступам, наскільки ми це можемо визначити. Звичайно, ми не можемо знати все: ми знаємо, що у вас були унікальні та особливі студенти, і що ситуація, з якою ви стикалися, ніколи не може бути дублюється. Тому ми знайте, що цей бал є лише оцінкою, яка недосконало відображає, наскільки ви добре навчали, але це справедливіша і точніша оцінка, ніж оцінка, що базується виключно на післятестових тестуваннях або на сировинних тестах, отриманих вашим класом ".


2
NB Будь ласка, не приписуйте мені ці думки! Я просто роблю все можливе, щоб сформулювати та захищати заявлену модель, як вимагається. Чи підходить ця модель, застосовна, добре пристосована тощо, - це зовсім окреме питання.
whuber

(+1) Останній абзац дуже вдалий.
chl

2

Тут просто нічого зрозуміти.

Ну добре, це просто стандартна лінійна регресивна модель. Він передбачає, що оцінка учня може бути описана як лінійна функція декількох факторів, включаючи коефіцієнти ефективності школи та вчителя - таким чином вона поділяє всі стандартні задачі лінійних моделей, головним чином, той факт, що це велике наближення нелінійної Світ може, і може працювати відмінно або бентежно погано залежно від ситуації та від того, наскільки можна намагатися екстраполювати її. (Однак слід очікувати, що автори технічного представника перевірили це і з’ясували, що це нормально ;-)).

Але справжня проблема полягає в тому, що це аналітичний інструмент, і такого не слід використовувати для оцінки досягнень людей - таким чином (абсолютно незалежно від того, справедливі чи ні оцінки) кожен евангеліє, який намагається зрозуміти її / його позначку (можливо, з надією його оптимізації) зустрінеться лише з безнадійною плутаниною, як у цьому випадку.


3
"тут просто нічого зрозуміти - це просто стандартна модель лінійної регресії" - teeee .... як це будь-яке втіху для математики. Я вважаю, що вам ніколи не сподобалося викладати курси бакалавра за статистикою, скажімо, соціології чи, нехай допоможе мені, комунікації.
фабіян

@fabians Це лише підтверджує мою думку - найбільший недолік цього підходу - конфронтація людей з математикою, ніж їх підрахунок =] Але я спробую це переробити.

Це справедлива критика - особливо частина щодо припущення лінійності - але вона насправді не відповідає на початкове запитання (якщо ви не маєте наміру образити гіпотетичного «мирянина»).
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.