У цій відповіді будуть обговорюватися можливі моделі з точки зору вимірювання , де нам надається набір спостережуваних (маніфестних) взаємопов'язаних змінних або заходів, загальна дисперсія яких передбачається вимірювати добре ідентифіковану, але не безпосередньо спостережувану конструкцію (як правило, у відображаючій спосіб), який буде розглядатися як латентна змінна . Якщо ви не знайомі з моделлю вимірювання прихованих ознак, я рекомендую наступні дві статті: Атака психометріків Дені Борсбоумом та «Латентне змінне моделювання: опитування» Андерса Скрондала та Софії Ребе-Гескет. Спочатку я зроблю невеликий відступ з бінарними показниками, перш ніж мати справу з предметами з кількома категоріями відповідей.
Одним із способів перетворення даних порядкового рівня в інтервальний масштаб є використання якоїсь моделі елемента відповіді . Добре відомий приклад - модель Раш , яка розширює ідею паралельної моделі тестування від класичної теорії випробувань, щоб впоратися з двійковими оцінкамичерез узагальнену лінійну модель із змішаним ефектом (з logit-посиланням) (у деяких «сучасних» програмних реалізаціях), де ймовірність схвалення певного елемента є функцією «складності предмета» та «здатності людини» (якщо вважати, що немає взаємодія між місцеположенням на вимірюваній латентній ознаці та розташуванням елемента в одній шкалі logit - яка може бути зафіксована через додатковий параметр дискримінації предмета, або взаємодією з індивідуально-специфічними характеристиками - що називається диференційованим функціонуванням елемента ). Основна конструкція вважається одновимірною, і логіка моделі Раша полягає лише в тому, що у респондента є певна «кількість конструкції» - поговоримо про відповідальність суб'єкта (його / її «здібності»),θθ, як і будь-який елемент, що визначає цю конструкцію (їх "складність"). Цікавить різниця між місцем розташування респондента та місцем розташування предмета на шкалі вимірювання . Щоб навести конкретний приклад, розгляньте наступне запитання: "Мені було важко зосередитись на чомусь, крім мого занепокоєння" (так / ні). Людина, яка страждає від тривожних розладів , швидше за все позитивно відповість на це питання порівняно з випадковою людиною, взятою із загальної сукупності та не має в минулому історії депресії або тривожного розладу.θ
Ілюстрація 29 кривих відповідей на предмет, отриманих в результаті масштабного американського дослідження, яке має на меті побудувати відкалібрований банк позицій для оцінки тривожних розладів (1,2) . Розмір вибірки - ; дослідницький факторний аналіз підтвердив одновимірність шкали (з першим власним значенням значною мірою вище другого власного значення (на 17 разів) та недостовірною віссю 2-го фактора (власне значення juste вище 1), як підтверджено паралельним аналізом), і ця шкала показує надійність індекс у прийнятному діапазоні, що оцінюється альфа Кронбаха ( , з 95% CI завантажувального інструментуα = 0,971 [ 0,967 ; 0,975 ]N= 766α = 0,971[ 0,967 ; 0,975 ]). Спочатку було запропоновано п'ять категорій відповідей (1 = "Ніколи", 2 = "Рідко", 3 = "Іноді", 4 = "Часто" та 5 = "Завжди") для кожного елемента. Тут ми розглянемо лише відповіді на двійкові оцінки.
(Тут відповіді на елементи типу Лікерта були зафіксовані як бінарні відповіді (1/2 = 0, 3-5 = 1), і ми вважаємо, що кожен елемент є однаково дискримінаційним для всіх, отже, паралелізм між нахилами кривої елемента (Раш модель).)
Як видно, люди, розташовані праворуч від осі , що відображає приховану ознаку (тривожність), які, як вважають, виражають більше цієї риси, швидше позитивно відповідають на питання типу "я відчував жах" (приголомшливий ) або "у мене виникли раптові відчуття паніки" (паніка), ніж люди, розташовані зліва (нормальне населення, навряд чи вважатиметься випадками); з іншого боку, малоймовірно, щоб хтось із широкої популяції повідомив про проблеми зі сном (сплячим): для когось, що знаходиться в проміжному діапазоні прихованої ознаки, скажімо, 0 логіт, його / її ймовірність забити 3 або вище становить приблизно 0,5 (що становить складність предмета).х
Для політоміческіх елементів з впорядкованими категоріями, є кілька варіантів: на часткову кредитної моделі , в масштабі моделі рейтингу , або градуированную модель відгуку , щоб ім'я , але деякі з них , які в основному використовуються в прикладних дослідженнях. Перші два належать до так званої "сім'ї Раш" моделей IRT і поділяють такі властивості: (a) монотонність функції ймовірності відповіді (крива відгуку на предмет / категорію), (b) достатність загальної індивідуальної оцінки (з прихованою параметр, що вважається фіксованим), (c) локальна незалежність, що означає, що відповіді на елементи є незалежними, залежними від прихованої ознаки та (d) відсутністю функціонування диференціальних елементів Це означає, що, залежно від прихованої ознаки, відповіді не залежать від зовнішніх індивідуально-змінних змінних (наприклад, стать, вік, етнічна приналежність, ЄЕП).
Поширюючи попередній приклад на випадок, коли ефективно враховуються п'ять категорій відповідей, пацієнт матиме більш високу ймовірність вибору категорії відповідей від 3 до 5, порівняно з особою, відібраною із загальної популяції, без будь-якого попереднього порушення тривожних розладів. Порівняно з описаним вище моделюванням дихотомічного елемента, ці моделі вважають або кумулятивним (наприклад, шанси на відповідь 3 проти 2 або менше), або порогом суміжної категорії (шанси на відповідь 3 проти 2), що також обговорюється в Категорії Агресті Аналіз даних(глава 12). Основна відмінність вищезгаданих моделей полягає в тому, як обробляються переходи від однієї категорії відповідей до іншої: модель часткового кредитування не передбачає, що різниця між будь-яким заданим пороговим розташуванням та середнім значенням порогових розташувань у прихованій ознаці дорівнює або рівномірний для всіх предметів, всупереч моделі рейтингової шкали. Ще одна тонка відмінність цих моделей полягає в тому, що деякі з них (як, наприклад, необмежений градуйований відповідь або часткова кредитна модель) дозволяють нерівномірно визначати параметри дискримінації між позицією. Докладніше див. Застосування моделювання теорії відповідей на предмет для оцінювання властивостей предмета та масштабу анкети Ріва та Фейєра, або Основа теорії відповідей на предмет , Френк Б. Бейкер, для отримання більш детальної інформації.
Оскільки в попередньому випадку ми обговорювали інтерпретацію кривих ймовірностей відповідей для дихотомічно набраних предметів, давайте розглянемо криві відгуку елементів, отримані з градуйованої моделі відповідей, виділяючи ті самі цільові елементи:
(Модель необмеженої градуйованої відповіді, що дозволяє нерівномірно розрізняти предмети.)
Ось такі спостереження заслуговують на деякий розгляд:
- Категорії відповідей для "сплячого" пункту є менш дискримінаційними, ніж, скажімо, ті, що додаються до "приголомшливого": у випадку "сплячого" для двох осіб, розташованих у двох крайніх інтервалах на латентному стані. риса (у блоках logit), їх вірогідність вибору четвертої відповіді (" часто виникали труднощі зі сном") йде приблизно від ок. 0,35-0,4; з 'приголомшливою', ця ймовірність сягає від менш ніж 0,1 до приблизно 0,25 (пунктирна синя лінія). Якщо ви хочете розрізнити двох пацієнтів, які виявляють ознаки тривоги, останній пункт є більш інформативним.[ 2 ; 2,5 ]
- Існує загальний зсув зліва направо, між пунктом, що оцінює якість сну, і тим, хто оцінює більш важкі стани, хоча порушення сну не є рідкістю. Це очікується: зрештою, навіть люди в цілому населення можуть відчувати певні труднощі із засинанням, незалежно від стану здоров'я, і люди, сильно депресивні чи тривожні, можуть виявити подібні проблеми. Однак "нормальні люди" (якщо це колись мало якесь значення) навряд чи виявлять деякі ознаки панічного розладу (ймовірність того, що вони виберуть категорію найвищої реакції, дорівнює нулю для людей, розташованих до проміжного діапазону чи більше прихованої ознаки, [ 0; 1]).
В обох випадках, обговорених вище, ця шкала, яка відображає індивідуальну відповідальність за припущеною прихованою ознакою, має властивість інтервальної шкалиθ .
Окрім того, що їх вважають справді вимірювальними моделями, те, що робить моделі Раша привабливими, полягає в тому, що підсумки підсумків, як достатня статистика , можуть бути використані як сурогати для прихованих балів. Більше того, властивість достатності легко передбачає відокремленість параметрів моделі (осіб та предметів) (у випадку з політомними елементами не слід забувати, що все застосовується на рівні категорії відгуку елементів), отже, і суміжна добавка.
Хороший огляд IRT моделі ієрархії, з впровадженням R, мається на статті МАИР і Hatzinger, опублікованій в журналі статистичного програмного забезпечення : Extended Rasch Modeling: МВК Пакет для застосування IRT моделей в R . Інші моделі включають лінійно-лінійні моделі , непараметричну модель, як модель Моккен , або графічні моделі .
Окрім R, я не знаю про реалізацію Excel, але на цій нитці було запропоновано декілька статистичних пакетів: Як почати застосовувати теорію відгуку елементів та яке програмне забезпечення використовувати?
Нарешті, якщо ви хочете вивчити взаємозв'язки між набором елементів та змінною відповіді, не вдаючись до моделі вимірювання, певна форма квантування змінної за допомогою оптимального масштабування теж може бути цікавою. Крім R-реалізацій, обговорених у цих потоках, рішення SPSS також були запропоновані на пов'язаних потоках .
Список літератури
- Pilkonis, P., Choi, S., Reise, S., Stover, A. and Riley, W. et al. (2011). Банки предметів для подолання емоційних проблем від інформаційної системи вимірювання результатів, повідомлених пацієнтом (PROMIS): депресія, тривога та гнів . Оцінка , 18 (3), 263–283.
- Choi, S., Gibbons, L. and Crane, P. (2011). lordif: пакет R для виявлення функціонування диференціальних елементів за допомогою ітеративної гібридної порядкової логістичної регресії / теорії реагування на предмет та моделювання Монте-Карло . Журнал статистичного програмного забезпечення , 39 (8).