Змінна масштабу як даних підрахунку - правильна чи ні?


10

У цьому документі (у вільному доступі через центральний PubMed) автори використовують негативну біноміальну регресію для моделювання оцінки на 10-елементному інструменті екранування, набраному 0-40. Ця процедура передбачає підрахунок даних, що тут явно не так. Мені б хотілося вашої думки про те, чи прийнятний такий підхід, оскільки я іноді використовую той же інструмент чи подібні у своїй роботі. Якщо ні, я хотів би знати, чи є прийнятні альтернативи. Детальніше нижче:

Використовувана шкала - тест на виявлення розладів алкоголю (AUDIT), 10-ти опитувальник, розроблений як інструмент перевірки на розлад вживання алкоголю та небезпечне / шкідливе вживання алкоголю. Інструмент набирається від 0 до 40, а результати, як правило, сильно перекошені зліва.

Наскільки я розумію, використання даних підрахунку передбачає, що всі "підраховані" значення є незалежними одне від одного - пацієнти, які щодня приходять до невідкладної допомоги, кількість смертельних випадків у певній групі тощо - всі вони незалежні один від одного, хоча і залежать від базових змінних. Крім того, я думаю, що при використанні даних лічильника не може бути максимально дозволеної кількості, хоча я вважаю, що це припущення можна послабити, коли теоретичний максимум дуже високий у порівнянні зі спостережуваним максимумом у даних?

Під час використання шкали AUDIT у нас немає справжнього рахунку. У нас є 10 предметів із максимальною загальною оцінкою 40, хоча такі високі бали рідко зустрічаються на практиці. Оцінки за предметами природно співвідносяться між собою.

Таким чином, припущення, необхідні для використання даних підрахунку, порушуються. Але це все-таки прийнятний підхід? Наскільки серйозні порушення припущень? Чи існують певні обставини, за яких такий підхід можна вважати більш прийнятним? Чи існують альтернативи такому підходу, які не передбачають зменшення змінної шкали до категорій?

Відповіді:


4

Інструмент AUDIT по суті є шкалою Лікерта. Набір запитань (елементи Лікерта) з відповідями часто за п’ятибальною шкалою розроблений для того, щоб розібратися з деяким основним явищем. Сума відповідей на набір питань, шкала Лікерта, потім використовується як міра основного явища. Хоча предмети Лікерта часто знаходяться на шкалі "сильно не згодні" із "сильним згодою", додаток для вимірювання тенденції до " A lcohol U se D порушень" у цій " I dentification T est" є простим.

Як зазначається на сторінці Вікіпедії за шкалою Лікерта , "Чи можуть окремі предмети Лікерта розглядатися як дані інтервального рівня, чи слід розглядати їх як упорядковані категоричні дані, є предметом значної суперечності в літературі, з твердими переконаннями щодо того, що таке найбільш застосовні методи ". Ця суперечка, мабуть, бере початок протягом більшої частини 80+ років з часу, коли Лікерт вперше запропонував шкалу: чи є кожен крок по шкалі еквівалента, як усередині, так і серед предметів, що складають шкалу? Питання вирішувалося на перехресній валідації, як і у відповідях на це запитання , одне з найбільш ранніх питань на цьому сайті.

Якщо ви погоджуєтесь з думкою про те, що у шкалі є кроки, які є рівномірними (або досить близькими до рівномірних для програми), можливо, в середньому, додавши 10 різних елементів, як в AUDIT), то можливі кілька підходів до аналізу. Одне - розглядати реакцію за шкалою як серію кроків, вибраних чи не вибраних для переміщення вгору за шкалою, з однаковою ймовірністю просування кожного з кроків вгору.

Це дозволяє мислити " n-точкові дані шкали Лікерта як n випробувань біноміального процесу ", як у запитанні 2010 року від @MikeLawrence. Незважаючи на те, що відповіді на це питання не дуже підтримували цю ідею, сьогодні було важко швидко знайти дослідження 2014 року, яке успішно використовувало та розширювало цей підхід для розрізнення субгрупп з різними біноміальними ймовірностями. Хоча біноміальний процес часто використовується для моделювання даних про підрахунок, він, таким чином, може бути використаний для моделювання кількості, кількості кроків, які людина здійснила за шкалою "Розлади вживання алкоголю".

Як зазначав @Scortchi у відповіді на питання, пов'язане з другим абзацом, обмеженням біноміальної моделі є те, що вона накладає певне співвідношення між середньою та дисперсією відповіді. У негативному біноміальних знімає це обмеження, з втратою легкої інтерпретації , представленої простий біноміальної моделлю. В аналізі додатковий параметр, який повинен відповідати, використовує лише один додатковий ступінь свободи. Навпаки, намагання вказати різні ймовірності для кожного з 40 етапів Лікертського об'єкта та їх суму в шкалі Лікерта було б неприємним.

Як зазначав @MatthewGraves у своїй відповіді на це питання, наскільки відповідна негативна біноміальна модель найкраще відповідати, досліджуючи залишки. У первинному дослідженні, яке розробило AUDIT, значення 8 або більше за 40-бальною шкалою мало цілком розумну специфіку та чутливість до розрізнення діагностованих «небезпечних чи шкідливих алкогольних напоїв» у 6 різних країнах. Тож, можливо, двомовна двочленна модель, заснована на популяціях з високим ризиком та низьким рівнем ризику, подібно до згаданого вище дослідження 2014 року, було б краще.

Тим, хто цікавиться AUDIT, слід вивчити це оригінальне дослідження. Наприклад, хоча потреба в ранковому напої може здатися мірою зовсім іншою, ніж частота вживання алкоголю, як @SeanEaster припускав, ранкове пиття має середньозважену кореляцію 0,73 зі шкалою заходів споживання алкоголю. (Цей результат не дивує того, хто дружив із порушеннями вживання алкоголю.) Здається, AUDIT є хорошим прикладом компромісів, необхідних для розробки інструменту, який можна надійно використовувати в різних культурах.


Дякую за гарну відповідь. Переглядаючи мої власні дані AUDIT про більш ніж 20000 осіб, форма виглядає наближеною до негативного біноміального розподілу, тому може бути розумним використовувати таке припущення щодо розподілу, або, можливо, може бути використана квазі-пуассонова модель? Якщо ми будемо використовувати біноміальний розподіл, розглядаючи точки як k успіх із 40 випробувань на Бернуллі, чи не виникне у нас серйозна проблема із передисперсією? Так виглядає в моїх даних. Чи може квазібіноміал бути альтернативою?
JonB

Багато що залежить від того, чому ви моделюєте 0-40 балів AUDIT і яку евристичну інтерпретацію ви хочете розмістити на результатах. Якщо все, що ви хочете, - це відношення балів AUDIT до інших змінних, з обмеженою інтерпретацією самих значень параметрів розподілу, тоді використовуйте розподіл, який забезпечує належні залишки; ваші пропозиції розумні. Встановлення одного двочлена до даних є проблематичним, але суміш двох біноміальних груп (групи високого та низького ризику) з різними p може бути інформативною. Використовуйте судження, виходячи з ваших знань з теми.
EdM

2

х=40х40

Як загальний коментар, різні аромати регресії мають різні пріори за параметрами (тобто регуляризацією) та різними моделями шуму. Стандартна регресія найменших квадратів має гауссова модель шуму, негативна біноміальна регресія має негативну біноміальну модель шуму тощо. Справжнє випробування того, чи є регресивна модель придатною чи ні, полягає в тому, чи має залишковий шум очікуване поширення.

Таким чином, ви можете застосувати до своїх даних негативну біноміальну регресію, обчислити залишки, а потім побудувати їх на графіку негативної біноміальної ймовірності та зрозуміти, чи підходить модель чи ні. Якщо шум структурований якимось іншим способом, то нам потрібно шукати шумову модель, яка б більше відповідала цій структурі.

Обґрунтування від генеративної моделі до структури шуму є корисним - якщо ми знаємо, що дані мультиплікативні замість адитивної, наприклад, ми досягаємо лонормального замість нормального - але якщо очікувана генеративна модель та структура шуму не згодні, йти з даними, а не з очікуванням.


Цікаво, що я не знав, що події можуть бути "заразними". Що ви маєте на увазі, замінивши х = 40 на х> = 40 на практиці? Як зробити графік негативної біноміальної ймовірності в R? Я гадаю, ви не маєте на увазі залишків ділянки проти встановлених значень? Ви маєте на увазі як QQ сюжет?
JonB

@JonB Припустимо, у вас від’ємний біном з r = 1 і ймовірністю успіху p = .9. Ймовірність вижити в 40 випробуваннях рівно 0,148%; ймовірність вижити 40 і більше випробувань становить 1,48%. Таким чином, можна визначити добре сформовану ймовірність на домені [0,40], використовуючи від'ємний біноміал для [0,39], а потім встановити [40], так що він підсумовує одиниці, а тому, що негативний біноміальний розподіл добре- сформована ймовірність того, що це 40 і більше.
Меттью Грейвс

@JonB Точно, я маю на увазі, як QQ сюжет. Я ще не робив цього в R, але сподіваюся, що це посилання допоможе.
Меттью Грейвс

1
Я експериментував над деякими даними з балами AUDIT. Створюючи графік qq, мені потрібно створити випадковий вектор результатів від негативного біноміального розподілу. Му / тета задана моєю регресійною моделлю, але як я можу знати, який "розмір" використовувати? Вибачте, якщо це специфічне для R питання. У будь-якому випадку, чи є у вас хороша довідка, яку я можу прочитати більше про застосування негативних біноміальних (та інших розподілів) до цих типів шкал, побудованих шляхом підсумовування кількох елементів, які вимірюють вид того самого процесу?
JonB

Зараз я робив кілька додаткових експериментів. Я імітував набір даних із двома змінними: x та y. 50% - х = 0, 50% - х = 1. Ті, хто x = 0, мають ймовірність 0,2 для y = 1, а ті, хто x = 1, мають 0,4 ймовірність для y = 1. Потім я провів логістичну регресію і подивився на залишки. Не виглядають біноміально розподіленими взагалі. Насправді вони (звичайно) приймають 4 конкретні значення. Ви впевнені, що залишковий малюнок завжди повинен відповідати припущенню розподілу? Тому що в цьому випадку це явно неправильно.
JonB
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.