Як почати застосовувати теорію відгуку на предмет та яке програмне забезпечення використовувати?


21

Контекст

Я читав про теорію відгуку предметів, і вважаю це захоплюючою. Я вважаю, що я розумію основи, але мені залишається цікаво, як застосувати статистичні прийоми, пов'язані з цією областю. Нижче наведено дві статті, схожі на область, у якій я хотів би застосувати ІТР:

Другий - той, кого я насправді хотів би продовжити в цей момент часу.

Я завантажив безкоштовну програму під назвою jMetrik, і вона, здається, працює чудово. Я думаю, що це може бути занадто базовим, що стосується IRT, але я не впевнений.

Я знаю, що "найкращий" спосіб, ймовірно, передбачає вивчення R; однак я не знаю, чи можу я витратити час на вирішення цієї кривої навчання. Зауважте, що у нас є певне фінансування для придбання програмного забезпечення, але, як я бачу, там, здається, немає великих програм IRT.

Запитання

  • Які ваші думки щодо ефективності jMetrik?
  • Як би ви запропонували продовжувати застосування ІРТ?
  • Які найкращі програми для застосування IRT?
  • Хтось із вас регулярно використовує ІРТ? Якщо так, то як?

1
яке програмне забезпечення ви зараз використовуєте?
Стаск

Я використовував jMetrik. Це зовсім нове виглядає і робив багато чого, що мене цікавить!
Бехакад

2
Чи працює він у режимі сценарію? Якщо у вас є лише графічний інтерфейс, то ваші результати буде дуже важко відтворити. Режим сценарію є необхідним для будь-якого серйозного програмного забезпечення.
Стаск

Відповіді:


22

Як хороший стартер на ІРТ, я завжди рекомендую читати Візуальне керівництво з теорії відгуку пункту .

Огляд наявного програмного забезпечення можна знайти на веб- сайті www.rasch.org .

Зі свого досвіду я вважаю, що команди команд Rashtest (та пов'язані з ними) Stata дуже зручні в більшості випадків, коли хтось зацікавлений у встановленні однопараметричної моделі. Для більш складного дизайну можна вдатися до GLLAMM ; є приємний робочий приклад, заснований на книзі Де Боека та Вілсона, пояснювальних предметах та моделях реагування (Springer, 2004).

Що стосується конкретно R, існує багато пакетів, які стали доступними за останні п’ять років, див., Наприклад, відповідний перегляд завдань CRAN . Більшість з них обговорюються в спеціальному випуску в журналі статистичного програмного забезпечення (т. 20, 2007). Як було обговорено в іншій відповіді, ltm та eRm дозволяють підходити до широкого кола моделей IRT. Оскільки вони покладаються на різний метод оцінки --- ltmзастосовується граничний підхід при eRmвикористанні умовного підходу --- вибір того чи іншого - це головним чином питання моделі, до якої ви хочете підходити (eRm не підходить для 2-х чи 3-параметрових моделей) і цілі вимірювання, яку ви дотримуєтеся: умовна оцінка параметрів людини має деякі приємні психометричні властивості, тоді як маргінальний підхід дозволяє легко перейти до моделі змішаних ефектів, про що йдеться у наступних двох роботах :

Є також деякі можливості , щоб відповідати моделі Раша з допомогою методів MCMC, см , наприклад , в MCMCpack пакет (або WinBUGS / JAGS , але бачать ПОМИЛКИ Код для товара Теорія відгуку , JSS (2010) 36).

У мене немає досвіду роботи з SAS для моделювання IRT, тому я дозволю це тому, хто більше розбирається в програмуванні SAS.

Інше виділене програмне забезпечення (в основному використовується в навчальному оцінюванні) включає: RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus (не цитуючи переліку, який уже є у вікіпедії ). Жоден не є вільним у використанні, але для деяких із них пропонується обмежена за часом демонстраційна версія. Я знайшов jMetrik дуже обмежені , коли я спробував це (один рік назад), і всі функціональні можливості вже доступні в R. Аналогічно, ConstructMap можна сміливо замінити на lme4 , як показано в раздаточном матеріалі , вказаною вище. Я також повинен згадати mdltm(Багатовимірні дискретні латентні моделі прихованих ознак) для комбінованих моделей Раш, фон Дав'є та кол., Який повинен супроводжувати книгуБагатошарові моделі розподілу сумішей та суміші (Springer, 2007).


Фантастичний! Дякую за дуже вичерпну відповідь! Обидві ці відповіді допоможуть мені чудово, як і будь-хто інший, хто цікаво займатися цією областю, я впевнений. Я пропоную вам ще раз поглянути на jMetrik і, можливо, передати мені свої думки. Зараз в ньому є моделювання Rasch, криві ICC, деякі криві IRT, IRT рівняння (моделі 1PT, 2PT, 3PT) та інше.
Behacad

Я перегляну оновлену версію. Але, чесно кажучи, те, що сказав @Stask, варто пам’ятати, якщо ви плануєте робити щось серйозне поза оцінкою параметрів та візуальної звітності. Для того, щоб отримати уявлення про те , що я маю в виду, подивіться на Введення в психометричних теорії з додатками в R . (Він охоплює більше, ніж те, що деякі називають «сучасної» психометрією.)
chl

@chi - я отримав дуже різні результати, коли проводив ІРТ-аналізи в R, використовуючи ltm, порівняно з тим, коли я проводив той же аналіз у Mplus, а потім у Multilog (тоді як аналіз у Mplus та Multilog був однаковим). Я спробував розібратися, чому з автором ltm, але відповіді не отримав. Чи мали у вас подібний досвід із невідповідними результатами різних програмних пакетів?
Tormod

ex5.5θp-βii=1,,кp=1,,нβi-θpщо моделюється, і метод оцінки (гранична проти умовної ймовірності), і для моделей 2+ параметрів, порогові значення по центру чи ні.
chl

@chi - вибачте за затримку у відповіді, я не помітив вашого коментаря. Не знаю, чи це все-таки актуально, але я отримав відмінності від 0,184 - 1,429 для параметрів дискримінації (a). Наприклад, Mplus дав a = 5,084, тоді як ltm дав тому ж елементу a = 3,655. Загалом, ltm дав менші показники, ніж mplus. (Запуск тих же аналізів у мультилогів дав відповідні відповіді з Mplus). B були більш подібні.
Tormod

8

До першого питання я не маю жодної інформації про jMetrick.

Застосовуючи ІРТ (як і будь-яку іншу статистичну процедуру), перший крок - це використовувати його з якомога більшою кількістю різних видів даних. Існує крива навчання, але я вважаю, що вона того варта.

Однією важливою особливістю IRT є розмежування моделей Rasch від IRT-моделей. Вони були розроблені різними людьми для різних цілей. Як сказано, моделі IRT є сукупністю моделей Rasch.

Моделі Раша - це одна параметрична модель - вони припускають, що всі елементи анкети однаково прогнозують приховану ознаку.

Моделі IRT, однак, це дві моделі параметрів, які дозволяють питанням відрізнятися своєю здатністю надавати інформацію про здатність учасників.

Крім того, існують три моделі параметрів, схожі на моделі IRT, за винятком того, що вони дозволяють параметру відгадування враховувати можливість учасників отримати правильну відповідь випадково (це швидше викликає занепокоєння здатність, а не тести особистості).

Крім того, існує багатовимірний ІРТ, який оцінює відразу кілька прихованих здібностей. Я не знаю багато про це, але про область, про яку я маю намір дізнатися більше.

Існує також розмежування дихотомічних та політомних методів ІРТ. Дихотомічні моделі ІРТ - це ті, які використовуються в тестах на здатність, на які є правильна і неправильна відповідь. Політомні моделі ІРТ використовуються в тестах особистості, де є кілька відповідей, однаково правильних (в тому сенсі, що немає правильної відповіді).

Я особисто використовую R для теорії відгуку елементів. Я використав два основні пакети, eRmякі підходять лише для моделей Rasch, і ltmякі відповідають моделям теорії відгуку елементів (моделі двох та трьох параметрів). Обидва мають подібний функціонал, і обидва надають більше процедур для дихотомічних IRT-моделей. Я не знаю, чи R є "найкращим" для IRT, у нього немає всієї безлічі моделей IRT, але це, безумовно, найбільш розширювана, оскільки можна програмувати ці моделі відносно легко.

Я використовую IRT майже виключно для багатотомних моделей, в Р. Я, як правило, починаю з непараметричних методів ІРТ (надаються в комплекті mokken), щоб перевірити припущення, а потім продовжую розгалужувальну модель, додаючи більше складності, як потрібно для гарного пристосування.

Для багатовимірного IRT існує пакет `mirt ', який забезпечує цю функціональність. Я не користувався цим, тому не можу реально коментувати.

Якщо ви встановите ці пакети в R, і називають «віньєткою (" імяпакет ")» функція , то ви повинні отримати деякі корисні віньєтки (безумовно для eRmі mokken, можливо , для інших) , які можуть виявитися корисними для вас ( в залежності від рівня математична витонченість).

Нарешті, є ряд хороших книг для моделей rasch та irt. Теорія відгуків предметів для психологів часто використовується (хоча мені стиль не сподобався), і в подальшому в ланцюжку технічної вдосконалення є два надзвичайно вичерпні і корисні підручники - Посібник сучасної теорії реагування предметів і Моделі Раш: Основи, недавні Розробки та застосування .

Я сподіваюся, що це допомагає.


Дякую! Це дуже цінується. Я також хотів би дізнатися більше про варіанти програмного забезпечення, якщо хтось має деякі знання в цій галузі.
Behacad

3

jMetrik є потужнішим, ніж ви можете подумати. Він розроблений для оперативної роботи, коли дослідникам необхідні кілька процедур в єдиній єдиній рамці. В даний час ви можете оцінити параметри IRT для моделей Rasch, часткової кредитної та рейтингової шкали. Він також дозволяє пов'язувати масштаб ІРТ за допомогою Лорда-панчіха, Хаебари та інших методів. Оскільки вона включає в себе інтегровану базу даних, вихід з оцінки IRT може бути використаний у масштабі зв'язку без необхідності переробляти файли даних. Більше того, весь вихід може зберігатися в базі даних для використання з іншими методами в jMetrik або зовнішніх програмах, таких як R.

Ви також можете запустити його зі скриптами замість GUI. Наприклад, наступний код: (a) імпортує дані в базу даних, (b) оцінить елементи за допомогою ключа відповіді, (c) оцінить параметри моделі Rasch та (d) експортує дані у файл CSV. Ви можете використовувати кінцевий вихідний файл як вхід в R для подальшого аналізу, або ви можете використовувати R для підключення безпосередньо до бази даних jMetrik та роботи з результатами.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

Програмне забезпечення ще знаходиться на ранній стадії розвитку. Наразі я додаю дослідницький аналіз факторів та більш досконалі моделі реагування на елементи. На відміну від багатьох інших програм IRT, jMetrik є відкритим кодом. всі процедури вимірювання використовують бібліотеку психометрики, яка наразі доступна в GitHub, https://github.com/meyerjp3/psychometrics . Будь-хто зацікавлений у наданні внеску.


0

У вас тут досить широкий перелік питань, але цілком актуальний для багатьох дослідників!

Я настійно рекомендую вам рухатися вперед до IRT, але тільки якщо ваша ситуація відповідає вимогам. Наприклад, він добре поєднується з типами тестів, які ви використовуєте, і, мабуть, найголовніше, що у вас є необхідні розміри вибірки. Для дихотомічних даних з множинним вибором я рекомендую модель 3PL (аргумент Раша про "об'єктивне вимірювання" разюче неперевершений), а 500-1000 - це, як правило, мінімальний розмір вибірки. Дихотомічні дані, не здогадуючись, як і психологічні опитування, які відповідають відповіді на твердження, добре працюють з програмою 2PL. Якщо у вас є рейтингова шкала або часткові кредитні дані, існують багатотомні моделі, розроблені спеціально для цих ситуацій.

IMHO, найкраща програма для застосування IRT - це Xcalibre. Він відносно зручний для користувачів (простий графічний інтерфейс, а також певний пакетний тип командного рядка, якщо ви хочете його з певних причин) і дає високочитабельний вихід (звіти MS Word із великими таблицями та малюнками). Я не рекомендую використовувати R з протилежних причин. Недолік, звичайно, полягає в тому, що це не безкоштовно, але ти, як кажуть, отримуєш те, за що платиш. Повний опис, приклад результатів та безкоштовна пробна версія доступні на веб-сайті www.assess.com .


Чи хотіли б ви детальніше зупинитися на тому, чому аргумент щодо «об'єктивного вимірювання» сенсу Раша (або правильніше можливості конкретних об'єктивних порівнянь) є «разюче неперевершеним»?
Момо

0

Тим часом там вийшла нова книга Френка Бейкера, Бейкера Франка Б., Сеок-Хом Кім. Основи теорії відповідей на предмет використання міжнародного видавництва Р. Спрингера (2017) . Він не використовує пакети R, але пропонує фрагменти.

Список (переповнений) R пакетів для IRT з коротким описом доступний на CRAN .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.