Як офіційно протестувати на "перерву" в нормальному (або іншому) розподілі


10

Соціальна наука часто припускає, що змінні, які повинні бути розподілені якимось чином, скажімо, нормально, в кінцевому рахунку мають розрив у їх розподілі навколо певних моментів.

Наприклад, якщо є конкретні обмеження, такі як "проходження / невдача", і якщо ці заходи можуть бути викривленими, в цій точці може виникнути розрив.

Один видатний приклад (цитується нижче) - стандартизовані результати тестування для студентів, як правило, розподіляються в основному скрізь, за винятком 60%, коли маса дуже мала від 50-60%, а надмірна маса - близько 60-65%. Це трапляється у випадках, коли викладачі складають власні іспити учнів. Автори досліджують, чи справді вчителі допомагають студентам складати іспити.

Найбільш переконливі докази, без сумніву, свідчать про показ графіків кривої дзвіночка з великим розривом навколо різних обрізів для різних випробувань. Однак як би ви вирішили розробити статистичний тест? Вони спробували інтерполяцію, а потім порівняли фракцію вище чи нижче, а також t-тест на фракцію на 5 балів вище та нижче відсічки. Хоча розумні, це спеціальні. Хтось може придумати щось краще?

Посилання: Правила та розсуд при оцінюванні учнів та шкіл: випадок іспитів нью-йоркських регентів http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

Розподіляючи тестові бали, маніпульовані чорним кольором, відзначають різке падіння щільності нижче відрізу та відповідний підйом вище


Просто для уточнення - чи ви протестуєте на загальну відсутність, наприклад, нормальності, або на наявність розриву в заздалегідь заданий момент? Ваш приклад є останнім, але, звичайно, будь-який тест на корисність, наприклад, Андерсон-Дарлінг або Шапіро-Вілк для нормальності, буде служити, хоча з дуже специфічною альтернативою ви могли б побудувати більш потужні тести. Крім того, у вашому графіку вище ви, очевидно, маєте зразок тисяч; це було б також типово?
jbowman

Відповіді:


6

Важливо правильно поставити питання і прийняти корисну концептуальну модель балів.

Питання

Потенційні пороги обману, такі як 55, 65 та 85, апріорі відомі незалежно від даних: їх не потрібно визначати з даних. (Отже, це не є ні проблемою виявлення, ні проблемою з розподілом.) Тест повинен оцінювати докази того, що деякі (не всі) бали трохи менше цих порогів були переміщені до цих порогів (або, можливо, трохи більше цих порогових значень).

Концептуальна модель

Для концептуальної моделі важливо розуміти, що бали навряд чи мають нормальний розподіл (ні будь-який інший легко параметризований розподіл). Це повністю зрозуміло у розміщеному прикладі та в кожному іншому прикладі з оригінального звіту. Ці бали представляють собою суміш шкіл; навіть якщо розподіл у будь-якій школі був нормальним (їх немає), суміш, швидше за все, не буде нормальною.

Простий підхід передбачає, що існує справжній розподіл балів: той, про який можна було б повідомити, крім цієї конкретної форми обману. Тому це непараметрична установка. Це здається занадто широким, але є деякі характеристики розподілу балів, які можна передбачити або спостерігати у фактичних даних:

  1. Підрахунки балів , , будуть тісно взаємозв’язані, .i1ii+11i99

  2. У цих підрахунках будуть різні варіанти навколо деякої ідеалізованої плавної версії розподілу балів. Зазвичай ці варіанти мають розмір, рівний квадратному кореню підрахунку.

  3. Обдурення відносно порогового значення не вплине на рахунки за будь-яку оцінку . Ефект його пропорційний кількості кожного балу (кількість учнів, які "ризикують" бути підданими обману). Для балів нижче цього порогу кількість буде зменшена на деяку частку і ця сума буде додана до .titic(i)δ(ti)c(i)t(i)

  4. Сума змін зменшується з відстанню між балом і порогом: є функцією, що зменшується, .δ(i)i=1,2,

З огляду на поріг , нульовою гіпотезою (без обману) є те, що , що означає, що однаково . Альтернативою є те, що .tδ(1)=0δ0δ(1)>0

Побудова тесту

Яку тестову статистику використовувати? Згідно з цими припущеннями, (а) ефект є аддитивним у підрахунках, і (б) найбільший ефект буде мати місце біля порогу. Це вказує на перегляд перших відмінностей підрахунків, . Подальший розгляд пропонує піти на крок далі: за альтернативною гіпотезою ми очікуємо побачити послідовність поступових депресивних підрахунків, коли оцінка наближається до порогу знизу, то (i) велика позитивна зміна при наступним (ii) a великі негативні зміни при . Щоб досягти максимальної потужності тесту, давайте розглянемо другі відмінності,i t t t + 1c(i)=c(i+1)c(i)ittt+1

c(i)=c(i+1)c(i)=c(i+2)2c(i+1)+c(i),

тому що при це буде поєднувати велике негативне зниження з негативом великого додатного збільшення , тим самим збільшуючи ефект обману .i=t1c(t+1)c(t)c(t)c(t1)

Я буду гіпотезувати - і це можна перевірити - що послідовне співвідношення підрахунків біля порогу є досить малим. (Послідовне співвідношення в іншому місці не має значення.) Це означає, що дисперсія приблизноc(t1)=c(t+1)2c(t)+c(t1)

var(c(t1))var(c(t+1))+(2)2var(c(t))+var(c(t1)).

Раніше я запропонував для всіх (те, що також можна перевірити). Звідсиvar(c(i))c(i)i

z=c(t1)/c(t+1)+4c(t)+c(t1)

приблизно повинна мати дисперсію одиниці. Для великої кількості балів (розміщена приблизно 20 000) ми також можемо очікувати приблизно нормального розподілу . Оскільки ми очікуємо, що вкрай негативне значення вказує на схему обману, ми легко отримуємо тест на розмір : write для cdf стандартного нормального розподілу, відкидаємо гіпотезу про відсутність обману на порозі коли .c(t1)αΦtΦ(z)<α

Приклад

Наприклад, розглянемо цей набір справжніх тестових балів, отриманих у суміші трьох нормальних розподілів:

Гістограма справжніх балів

Для цього я застосував графік обману на порозі визначеному . Це зосереджує майже всі обману на один-два бали одразу нижче 65:t=65δ(i)=exp(2i)

Гістограма балів після обману

Щоб зрозуміти, що робить тест, я обчислював для кожного балу, а не лише , і склав його проти балу:zt

Сюжет Z

(Насправді, щоб уникнути проблем з невеликими підрахунками, я спочатку додав 1 до кожного підрахунку від 0 до 100, щоб обчислити знаменник .)z

Коливання поблизу 65 очевидні, як і тенденція, коли всі інші коливання мають розмір приблизно 1, що відповідає припущенням цього тесту. Статистика тесту - з відповідним значенням p , надзвичайно значущим результатом. Візуальне порівняння з малюнком у самому питанні дозволяє припустити, що цей тест може повернути значення р принаймні як невелике.z=4.19Φ(z)=0.0000136

(Однак зауважте, що сам тест не використовує цей сюжет, який показаний для ілюстрації ідей. Тест дивиться лише на накреслене значення на порозі, ніде більше. Це все ж було б хорошою практикою робити такий сюжет щоб підтвердити, що тестова статистика дійсно виділяє очікувані пороги як локуси обману і що всі інші бали не піддаються таким змінам. Тут ми бачимо, що в усіх інших балах коливання коливаються приблизно від -2 до 2, але рідко Зауважте також, що для обчислення не потрібно насправді обчислювати стандартне відхилення значень у цій графіці , тим самим уникаючи проблем, пов'язаних із ефектами обману, що нагнітають коливання у кількох місцях.)z

При застосуванні цього тесту до декількох порогів було б розумним коригування розміру тесту Bonferroni. Додаткове коригування при застосуванні до декількох тестів одночасно також було б хорошою ідеєю.

Оцінка

Ця процедура не може бути серйозно запропонована до використання, поки вона не буде перевірена на фактичних даних. Хорошим способом було б взяти бали за один тест і використовувати некритичну оцінку для тесту як порогову. Імовірно, такий поріг не піддавався цій формі обману. Моделюйте обман за цією концептуальною моделлю та вивчіть модельований розподіл . Це вкаже (а) наскільки точні значення p та точність (b) потужність тесту для позначення імітованої форми обману. Дійсно, можна використати таке симуляційне дослідження на тих самих даних, які оцінюються, забезпечуючи надзвичайно ефективний спосіб перевірити, чи є тест відповідним і яка його фактична потужність. Тому що тестова статистикаzz настільки просто, моделювання буде практично зробити і швидко виконати.


Цей тест потрібно трохи відрегулювати, оскільки очікування (приблизно) пропорційне другому похідному розподілу. У прикладі, коли поріг знаходиться поблизу режиму, ця друга похідна знаходиться біля нуля, тому немає жодної проблеми, але для порогу в області високої кривизни (близько 70 або 90 в модельованих даних) регулювання може бути суттєвим. Якщо я отримаю шанс, я відповідно відредагую цю відповідь. z
whuber

1

Я пропоную встановити модель, яка прямо передбачить прогалини, а потім покаже, що вона значно краще відповідає даних, ніж наївна.

Вам потрібні два компоненти:

  • початковий розподіл балів,
  • процедура повторної перевірки (чесної чи ні) балів, якщо вона підходить під поріг.

Однією з можливих моделей для одного порогу (значення ) є така: деt

pfinal(s)=pinitial(s)pinitial(s)m(st)+δ(s=t)s=0t1pinitial(s)m(st),
  • pfinal(s) - розподіл ймовірності підсумкового балу,
  • pinitial(s) - розподіл ймовірності, якщо не було порогів,
  • m(st) - ймовірність маніпулювання балом на прохідний бал ,st
  • δ(s=t) - дельта Kronecker, тобто 1, якщо і 0 в іншому випадку.s=t

Зазвичай ви не можете багато підняти бали. Я б підозрював, що експоненціальний розпад , де - частка повторно перевірених (маніпульованих) балів.m(st)aqtsa

В якості початкового розподілу можна спробувати використовувати пуассонівський або гауссовий розподіл. Звичайно, в ідеалі було б те саме тестування, але для однієї групи вчителів передбачено поріги, а для іншої - немає порогів.

Якщо порогових значень більше, то можна застосувати ту саму формулу, але з виправленнями для кожного . Можливо, також буде різним (наприклад, оскільки різниця між пропускними можливостями може бути важливішою, ніж між двома прохідними класами).tiai

Примітки:

  • Іноді існують процедури повторної перевірки тестів, якщо вони трохи нижче прохідного класу. Тоді складніше сказати, які випадки були чесними, а які - ні.
  • m(st) неодмінно залежатиме від типу тесту. Наприклад, якщо є відкриті запитання, то деякі відповіді можуть бути неоднозначними, і кількість їх залежить від (тому для низьких оцінок може бути простіше підвищити бал). Тоді як для тесту з закритим вибором не повинно бути різниць у кількості правильних і неправильних відповідей.s
  • Іноді «виправлені» бали можуть бути вище - замість ідеалізованих можна підключити що-небудь інше.tδ(s=t)

Я не впевнений, що відповідає на моє точне запитання. У цьому випадку ми не маємо можливості повторно перевіряти будь-які іспити. Все, що спостерігається, - це розподіл підсумкових балів. Розподіл в основному нормальний. За винятком того, що навколо певної точки відсічення, де ми підозрюємо маніпуляції, спостерігається розрив нормальної кривої. Якщо нульовим є те, що крива була б "гладкою" в цій точці, то як ми можемо перевірити її на альтернативній гіпотезі, де вона "
купіла

Я думаю, що я занижую питання. Моя суть полягала в тому, щоб: підходити до Гаусса (2 параметри) і обчислювати , потім підходити (2 параметри для гауссових + (t + 1) параметрів для порогів) і обчислювати його . Розрахунок гладкості (наприклад, у вигляді ) може бути цікавим, але тоді важливо перевірити основні припущення та ін. ( наприклад, для тестів з великим питанням на 2 бали може бути досить висока "початкова" нерівність). Якщо у вас є доступ до необроблених даних (тобто до всіх відповідей, а не лише до загальних балів), то є ще більше місця для тестування ...X2pfinalX2s=099|p(s+1)p(s)|2
Piotr Migdal

1

Я розділив би цю проблему на дві підпроблеми:

  • Оцініть параметри розподілу відповідно до даних
  • Виконайте зовнішнє виявлення за допомогою встановленого розподілу

Існують різні способи вирішення будь-якої з підпрограм.

Мені здається, що розподіл Пуассона відповідав би даним, якби вони були незалежно і однаково розподілені (iid) , що, звичайно, ми вважаємо, що це не так. Якщо ми наївно спробуємо оцінити параметри розподілу, ми будемо перекошені сторонніми людьми. Два можливих способи подолати це - використовувати методи стійкої регресії або евристичний метод, такий як перехресне підтвердження.

Для виявлення сторонніх людей знову існують численні підходи. Найпростішим є використання довірчих інтервалів від розподілу, який ми встановили на етапі 1. Інші методи включають методи завантаження та підходи Монте-Карло.

Хоча це не скаже вам, що в розповсюдженні є "стрибок", воно скаже вам, чи є більше видатків, ніж очікувалося, для розміру вибірки.

Більш складним підходом було б побудувати різні моделі для даних, наприклад, складені розподіли, та використовувати якийсь метод порівняння моделі (AIC / BIC) для визначення, яка з моделей найкраще підходить для даних. Однак якщо ви просто шукаєте "відхилення від очікуваного розподілу", це здається непосильним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.