Лінійна регресія, коли Y обмежена і дискретна


14

Питання просте: Чи доцільно використовувати лінійну регресію, коли Y обмежена і дискретна (наприклад, тестовий бал 1 ~ 100, деякий заздалегідь визначений рейтинг 1 ~ 17)? У цьому випадку, чи "не добре" використовувати лінійну регресію, або цілком неправильно її використовувати?

Відповіді:


10

Коли відповідь або результат обмежений, виникають різні питання пристосування моделі, включаючи наступне: Y

  1. Будь-яка модель, яка могла б передбачити значення для відповіді поза цими межами, в принципі сумнівна. Отже, лінійна модель може бути проблематичною, оскільки для предикторів коефіцієнтів на і коефіцієнтів коли самі по собі не пов'язані в одному або в обох напрямках. Однак зв’язок може бути досить слабким, щоб не збиватись та / або прогнози цілком можуть залишатися в межах понад спостережуваного або правдоподібного діапазону прогнозів. Зрештою, якщо реакція є середньою шумом, навряд чи має значення, яка модель підходить.Y^=XbXbX+

  2. Оскільки відповідь не може перевищувати її межі, нелінійна взаємозв'язок часто є більш правдоподібною, якщо прогнозовані відповіді відхиляються на підхід до меж асимптотично. Сигмоподібні криві або поверхні, такі як передбачені моделями logit або probit, привабливі в цьому плані і тепер їх не складно прилаштувати. Така реакція, як грамотність (або частка, яка приймає будь-яку нову ідею), часто показує таку сигмоїдну криву в часі і правдоподібно майже з будь-яким іншим прогноктором.

  3. Обмежена відповідь не може мати властивості дисперсії, які очікуються при звичайній або ванільній регресії. Необхідно, коли середня реакція наближається до нижньої та верхньої межі, дисперсія завжди наближається до нуля.

Модель слід вибирати відповідно до того, що працює і знає основний процес генерації. Незалежно від того, чи знає клієнт або аудиторія про конкретні сімейства моделей, це також може керуватися практикою.

Зауважте, що я навмисно уникаю покривальних суджень, таких як хороший / не добрий, відповідний / невідповідний, правильний / неправильний. Усі моделі в кращому випадку є наближеннями, і яке наближення нагадує або достатньо добре для проекту, передбачити не так просто. Я, як правило, віддаю перевагу моделям logit як першому вибору для обмежених відповідей, але навіть ця перевага базується частково на звиці (наприклад, моє уникання пробіт-моделей без дуже вагомих причин) і частково на тому, де я буду повідомляти про результати, зазвичай читачам, які є, або повинні бути статистично добре поінформовані.

Ваші приклади дискретних масштабів - для балів 1-100 (у завданнях, які я відмічаю, 0, безумовно, можливі!) Або рейтингу 1-17. Для таких масштабів, як правило, я думаю про встановлення безперервних моделей на відповіді, масштабовані до [0, 1]. Однак є фахівці моделей звичайної регресії, які із задоволенням пристосували б такі моделі до шкал із досить великою кількістю дискретних значень. Я щасливий, якщо вони відповідуть, якщо вони так налаштовані.


8

Я працюю в дослідженнях охорони здоров’я. Ми збираємо результати, про які повідомляли пацієнти, наприклад фізичні функції або депресивні симптоми, і вони часто оцінюються у форматі, який ви згадали: шкала від 0 до N, що формується шляхом підсумовування всіх окремих питань за шкалою.

Переважна більшість літератури, яку я переглядав, щойно використовувала лінійну модель (або ієрархічну лінійну модель, якщо дані випливають із повторних спостережень). Мені ще не доводилося бачити, хто використовує пропозицію @ NickCox щодо (дробової) моделі logit, хоча це ідеально правдоподібна модель.

Теорія відповідей на предмет вважає мене ще однією правдоподібною статистичною моделлю. Тут ви припускаєте, що деяка прихована ознака викликає відповіді на запитання, використовуючи логістичну або упорядковану логістичну модель. Це по суті вирішує питання обмеженості та можливої ​​нелінійності, які піднімав Нік.θ

Наведений нижче графік походить від моєї майбутньої дисертаційної роботи. Тут я підходить лінійну модель (червону) до оцінки депресивної симптоматики, яка була перетворена на Z-бали, та (пояснювальну) модель ІРТ синього кольору на ті самі запитання. В основному, коефіцієнти для обох моделей знаходяться в одній шкалі (тобто в стандартних відхиленнях). Насправді досить велика сума згоди щодо розміру коефіцієнтів. Як наголошував Нік, всі моделі помиляються. Але лінійна модель може бути не надто неправильною у використанні.

введіть тут опис зображення

Однак, фундаментальне припущення майже всіх сучасних моделей ІРТ полягає в тому, що мова, про яку йдеться, є біполярною, тобто її підтримка to . Це, мабуть, не стосується депресивних симптомів. Моделі однополярних прихованих рис все ще розробляються, і стандартне програмне забезпечення не може їх підходити. Багато особливостей досліджень в галузі охорони здоров'я, які нас цікавлять, ймовірно, будуть однополярними, наприклад, депресивні симптоми, інші аспекти психопатології, задоволеність пацієнтів. Тож модель IRT також може бути помилковою.

(Примітка: модель вище впору USInt Філ Чалмерс mirtпакет в R. Graph , отримане з використанням ggplot2і ggthemesколірна схема витягує з Stata кольору по замовчуванням схеми.) .


6
Тільки тому, що лінійні моделі широко використовуються, це не означає, що вони доречні. Багато людей використовують лінійні моделі, тому що це лише те, що вони знають або їм комфортно.
qwr

1
Медична література особливо насичена поганою практикою, яка поширюється ідеологією типу "це те, що робить це поле / журнал". Як правило, я б не використовував або не користувався чимось лише через його зовнішній вигляд, який би не був поширеним у медичних дослідженнях.
LSC

1

Погляньте на передбачувані значення і перевірте, чи вони мають приблизно такий самий розподіл, як і вихідний Ys. Якщо це так, лінійна регресія, ймовірно, добре. і ви мало виграєте, вдосконалюючи свою модель.


1

Лінійна регресія може «адекватно» описати такі дані, але це малоймовірно. Багато припущень лінійної регресії, як правило, порушуються в даному типі даних настільки, що лінійна регресія стає необдуманою. Я просто виберу кілька припущень як приклад,

  1. Нормальність - Навіть ігноруючи дискретність таких даних, такі дані, як правило, виявляють крайні порушення нормальності, оскільки розподіли "відрізаються" за межі.
  2. Гомоседастичність - Цей тип даних, як правило, порушує гомоскедастичність. Відхилення мають тенденцію бути більшими, коли фактична середня величина до центру діапазону, порівняно з ребрами.
  3. Лінійність - Оскільки діапазон Y обмежений, припущення автоматично порушується.

Порушення цих припущень пом'якшуються, якщо дані мають тенденцію падати навколо центру діапазону, подалі від країв. Але насправді лінійна регресія не є оптимальним інструментом для такого роду даних. Набагато кращими альтернативами можуть бути біноміальна регресія або пуассонова регресія.


2
Важко помітити, що регресія Пуассона є кандидатом на подвійно обмежені відповіді.
Нік Кокс

0

Якщо відповідь займає лише кілька категорій, ви можете використовувати методи класифікації або порядкову регресію, якщо ваша змінна відповідь є порядковою.

Звичайна лінійна регресія не дасть тобі дискретних категорій, а також обмежених змінних відповідей. Останнє можна виправити за допомогою моделі logit, як у логістичній регресії. Щось на зразок тестового бала зі 100 категоріями 1-100, ви можете також спростити своє передбачення та використовувати обмежену змінну відповіді.


0

використовувати cdf (кумулятивна функція розподілу зі статистики). якщо ваша модель y = xb + e, то змініть її на y = cdf (xb + e). Вам потрібно змінити масштаб залежних змінних даних, щоб вони опинилися між 0 і 1. Якщо це додатні числа, розділіть їх на макс. І зробіть свої прогнози моделі та помножте на те саме число. Потім перейдіть на перевірку відповідності та побачите, чи обмежені прогнози покращують ситуацію.

Напевно, ви хочете використовувати алгоритм, що консервується, щоб піклуватися про статистику для вас.


1
Це, мабуть, заплутує два факти: (1) обмежені відповіді слід масштабувати до 0 і 1, щоб застосовувати logit, probit та подібні моделі (2) cdfs також варіюються між 0 і 1. При розгляді дробової відповіді як такої ви не знаєте не моделюю його cdf.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.