Ось одна з можливостей.
Оцінити ефективність роботи вчителів традиційно складно. Одна з частин цієї складності полягає в тому, що різні студенти мають різний рівень зацікавленості певним предметом. Якщо даний студент отримує бал A, це не обов'язково означає, що викладання було чудовим - скоріше, це може означати, що дуже обдарований і зацікавлений студент зробив усе можливе, щоб досягти успіху, навіть незважаючи на низьку якість викладання. І навпаки, студент, який отримує ступінь D, не обов'язково означає, що викладання було поганим - скоріше, це може означати, що незацікавлений студент здійснював зусилля, незважаючи на всі зусилля викладача щодо навчання та натхнення.
Складність посилюється тим, що вибір студентів (а отже, і рівень зацікавленості студентів) далеко не випадковий. У школах прийнято акцентувати один предмет (або групу предметів) над іншими. Наприклад, школа може наголосити на технічних предметах над гуманітарними науками. Студенти в таких школах, напевно, настільки зацікавлені в технічних областях, що вони отримають прохідну оцінку навіть з найгіршим можливим вчителем. Таким чином, частка учнів, які проходять математику, не є хорошим показником викладання - ми очікуємо, що хороші вчителі будуть робити набагато краще, ніж це з учнями, які так хочуть вчитися. На відміну від тих самих студентів, можливо, зовсім не цікавляться мистецтвом. Важко було б очікувати навіть від найкращого вчителя, щоб усі студенти отримали оцінку А.
Ще одна складність полягає в тому, що не всі успіхи в даному класі пов'язані безпосередньо з викладачем цього класу. Швидше за все, успіх може бути зумовлений тим, що школа (або весь район) створюють мотивацію та основу для досягнення.
Щоб врахувати всі ці труднощі, дослідники створили модель, яка оцінює "додану вартість" вчителя. По суті, модель враховує сутнісні характеристики кожного учня (загальний рівень зацікавленості та успішність у навчанні), а також внесок школи та району в успішність учнів та прогнозує оцінку учнів, які можна було б очікувати із «середнім рівнем» викладання в цьому середовищі. Потім модель порівнює фактичні оцінки з прогнозованими і на основі неї вирішує, чи було викладання адекватним, враховуючи всі інші міркування, краще, ніж адекватне, або гірше. Хоча модель може здатися складною для нематематика, вона насправді досить проста і стандартна. Математики вже десятиліттями використовують подібні (і навіть більш складні) моделі.
Підводячи підсумок, здогадка пані Ісааксон правильна. Незважаючи на те, що 65 з її 66 учнів отримали знання на державному тесті, вони набрали б так само, навіть якби собака була їх вчителем. Дійсний хороший викладач дав би змогу цим учням досягти не просто «досвідчених», а фактично «хороших» балів на одному тесті.
На даний момент я міг би згадати деякі мої проблеми з моделлю. Наприклад, розробники моделі стверджують, що вона вирішує деякі труднощі з оцінкою якості викладання. Чи є у мене достатньо причин, щоб їм вірити? У мікрорайонах з населенням з нижчим рівнем доходу буде нижчий очікуваний показник «округ» та «школа». Скажімо, для району очікувана оцінка буде 2,5. Вчитель, який досягне в середньому 3, отримає хорошу оцінку. Це може спонукати вчителів орієнтуватися на бал 3, а не на оцінку, скажімо, 4 або 5. Іншими словами, вчителі будуть спрямовані на посередність, а не на вдосконалення. Ми хочемо, щоб це сталося? Нарешті, навіть незважаючи на те, що модель проста математично, вона працює дуже різним чином від того, як працює людська інтуїція. Як наслідок, у нас немає очевидного способу підтвердити або оскаржити модель " s рішення. Невдалий приклад пані Ісааксон ілюструє, до чого це може призвести. Чи хочемо ми сліпо залежати від комп’ютера у чомусь такому важливому?
Зауважте, що це пояснення лайперсону. Тут я обійшов декілька потенційно спірних питань. Наприклад, я не хотів сказати, що очікується, що шкільні округи з низьким рівнем доходів демографічні, вони бідніші, тому що це не буде добре для лайперсона.
Крім того, я припустив, що метою є насправді дати досить справедливий опис моделі. Але я майже впевнений, що це не мета NYT. Так що, принаймні, частина причин їх пояснення є поганою - це, на мою думку, навмисне FUD.