Як формула пророцтва Спірмена-Брауна впливає на питання, що мають різні труднощі?


10

Як на результати формули пророцтва Спірмена-Брауна впливає тест-запитання різної складності або рейтинги, які легко чи важко оцінюють. В одному з поважних текстів сказано, що на СБ це постраждало, але він не дає деталей. (Дивіться цитату нижче.)

Гуйон, Р. М (2011). Оцінка, вимірювання та прогнозування рішень для персоналу, 2-е видання. Pg 477

"Надійність можна збільшити, об'єднавши рейтингів, використовуючи рівняння Спірмена-Брауна. Якщо надійність одного рейтингу дорівнює .50, то надійність двох, чотирьох або шести паралельних оцінок буде приблизно .67, .80 , і .86 відповідно "(Х'юстон, Реймонд, & Svec, 1991, стор. 409). Мені подобається ця цитата, тому що слово приблизно визнає, що статистичні оцінки є "в середньому" твердженнями про те, що можна очікувати, якщо все піде як передбачається. Поза цим дієвим словом є паралельне. Усереднення рейтингів (або використання Spearman-Brown), якщо один рейтинг, наприклад, систематично поблажливий, просто не відповідає припущенню. Якщо реферати оцінюються двома рейтингами, один поблажливіший за інший, проблема полягає в тому, щоб використовувати два тести з неоднорідною складністю (непаралельні форми). Оцінки на основі різних (нерівних) форм тестування не порівнянні. Так це і зі змішуванням поблажливих і складних рейтингів; надійність об'єднаних оцінок неправильно оцінюється рівнянням Спірмена-Брауна класичної теорії випробувань. Питання гірші, якщо кожен суддя визначає конструкцію трохи по-іншому ".


1
Я думаю, що проблема пошуку надійного джерела полягає в тому, що відповідь походить від теорії випробувань, і це очевидно, якщо ви розумієте основну теорію, і зокрема обмеження нашої здатності оцінювати надійність. Ось чому Гуйон не намагається пояснити це. Але удачі у вашому пошуку все одно - можливо, хтось десь знає кращого пояснення.
Джеремі Майлз

Відповіді:


10

Хоча я відчуваю, що трохи по-суєтному суперечить як «поважному тексту», так і іншому користувачеві резюме, мені здається, що на формулу Спірмена-Брауна не впливає наявність предметів різної складності. Безумовно, формула Спірмена-Брауна зазвичай виводиться з припущення, що у нас є паралельні пункти, що означає (серед іншого), що предмети мають однакові труднощі. Але виявляється, це припущення не є необхідним; це може бути розслаблено, щоб дозволити нерівні труднощі, і формула Спірмена-Брауна все одно буде дотримуватися. Я демонструю це нижче.


Нагадаємо, що в класичній теорії випробувань вимірюванням прийнято вважати суму компонента "справжнього бала" і похибки компонента , тобто з і некорельованими. Припущення про паралельні пункти полягає в тому, що всі елементи мають однакові істинні бали, що відрізняються лише своїми компонентами помилок, хоча вони вважаються однаковими. У символах, для будь-якої пари елементів іXTE

X=T+E,
TEXX
T=Tvar(E)=var(E).
Давайте подивимося, що станеться, коли ми розслабимо перше припущення, таким чином, що елементи можуть відрізнятись за своїми труднощами, а потім отримаємо надійність загального тестового балу за цими новими припущеннями. Зокрема, припустимо, що справжні бали можуть відрізнятися залежно від постійної добавки, але помилки все одно мають однакову дисперсію. У символах Будь-які різниці у складності фіксуються адитивною константою. Наприклад, якщо , то оцінки на мають тенденцію бути вищими, ніж оцінки на , так що "легше", ніж . Ми можемо називати це по суті паралельними
T=T+cvar(E)=var(E).
c>0XXXXпункти, аналогічно припущенню про "істотну тау-еквівалентність", яка аналогічно розслаблює тау-еквівалентну модель.

Тепер для отримання надійності тестової форми таких предметів. Розглянемо тест, що складається з по суті паралельних елементів, сума яких дає тестовий бал. Надійність - це, за визначенням, відношення справжньої відхилення балів до спостережуваної дисперсії балів. Для надійності окремих елементів випливає з визначення суттєвого паралелізму, що вони мають однакову надійність, яку ми позначимо з , з є істинною дисперсією балів та дисперсією помилок. Для надійності загального тестового бала спочатку вивчаємо дисперсію загального тестового бала, яка є kρ=σT2/(σT2+σE2)σT2σE2

var(i=1kTi+Ei)=var(i=1kT+ci+Ei)=k2σT2+kσE2,
де (без ) - будь-який довільний істинний бал, на який можна зміщувати справжні результати всіх елементів через їх постійні умови, є істинна дисперсія балів, а - дисперсія помилок. Зауважте, що постійні умови випадають! Це ключове. Тож надійність загального тестового балу дорівнює TσT2σE2
k2σT2k2σT2+kσE2=kσT2kσT2+σX2σT2=kρ1+(k1)ρ,
що є лише класичною формулою Спірмена-Брауна, незмінною. Це свідчить про те, що навіть при зміні "складності" предметів, визначених як їх середні бали, формула Спірмена-Брауна все ще дотримується.

@JeremyMiles піднімає деякі цікаві та важливі моменти щодо того, що може статися, коли ми збільшимо довжину тесту "в реальному світі", але, принаймні, згідно з ідеалізованими припущеннями класичної теорії випробувань, зміни складності предмета не мають значення для надійності тестова форма (на відміну від припущень сучасної Теорії реагування на предмет!). Ця ж основна лінія міркувань також полягає в тому, що ми зазвичай говоримо про істотну тау-еквівалентність, а не про тау-еквівалентність, оскільки більшість усіх важливих результатів стосуються більш м'якого випадку, коли труднощі з предметом (тобто засоби) можуть відрізнятися.


2
Так, хороший момент. Те, що я написав, не обов'язково дотримується.
Джеремі Майлз

5

Це нелегко сказати.

По-перше, Спірмен-Браун припускає, що тестові предмети (або рейтинги) вибираються випадковим чином із сукупності тестових предметів (або рейтингів). Це справді ніколи не відповідає дійсності, особливо тестів, тому що складати більше предметів важко, і, швидше за все, ви скористаєтеся кращими предметами для початку - тоді ви виявите, що тест повинен бути довшим, тож ви "вискоблювати бочку" для предметів.

По-друге, елементи відрізняються своєю надійністю, і надійність не обов'язково пов’язана з труднощами (якщо це допоможе, подумайте про нахил та перехоплення характеристичної кривої елемента в теорії відгуку елементів). Однак для розрахунку надійності (скажімо, альфа Кронбаха, яка є формою внутрішньокласової кореляції) припускають, що надійності всі рівні (вони передбачають істотну тау-еквівалентну модель вимірювання - тобто, що нестандартні надійності кожного елемента є всіма рівний). Це майже напевно неправильно. Додавання елементів може йти вгору, а може знижуватися. Це залежить від предметів.

Ось ще один спосіб подумати про це. Я випадковим чином вибираю вибірку з сукупності та обчислюю середню та стандартну похибки середнього. Це означає, що буде неупереджений оцінювач середнього рівня населення. Потім я збільшую розмір моєї вибірки - очікуване значення середнього значення однакове, але навряд чи воно буде фактично таким же - воно майже напевно піде вгору або вниз. Так само, як я очікую, що стандартна помилка стане меншою, але сума, яку вона скорочується, не буде послідовною (і стандартна помилка не може бути більшою.)


Чи дає формула SB мінімальне, максимальне чи деяке проміжне значення для очікуваної надійності? Крім того, оскільки надійність обчислюється у співвідношенні, чому легкі / жорсткі предмети чи рейтинги мають якийсь ефект?
Джоель В.

Формула SB дає очікувану надійність. Він може бути вищим чи нижчим за це. Одна проблема полягає в тому, що існує декілька способів обчислити надійність, і їхні припущення рідко виконуються. Вся справа входить в основу класичної теорії випробувань - теорія відгуку елементів - це більш сучасний спосіб думати про вимірювання, і це має більше сенсу багато часу, наприклад, надійність тесту не однакова для кожного людина в ІРТ.
Джеремі Майлз

Якщо питання дуже важке або дуже легке, це може вплинути на кореляцію. Наприклад, "7 * 11" може бути надійним питанням для 3-го класу, але для студентів з математики це не так.
Джеремі Майлз

1
<тест повинен бути довшим, так що ви будете "вискоблювати бочку" за предметами. Зрозуміло, що у вас був реальний досвід роботи зі складанням тестів.
Joel W.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.