Чи є сенс ставитись до категоричних даних як до безперервних?


57

Відповідаючи на це запитання щодо дискретних та безперервних даних, я з глибоким твердженням стверджував, що рідко є сенс трактувати категоричні дані як безперервні.

Зважаючи на це, це здається само собою зрозумілим, але інтуїція часто є поганим посібником для статистики, або, принаймні, моя. Тож зараз мені цікаво: це правда? Або є встановлені аналізи, для яких перетворення з категоричних даних у якийсь континуум насправді корисне? Чи має значення це, якби дані були порядковими?


20
Це запитання та його відповіді нагадують нам про те, наскільки грубим та обмеженим був цей застарілий поділ змінних на категоричне-порядковий-інтервальний коефіцієнт. Він може керувати статистично наївним, але для продуманого чи досвідченого аналітика це перешкода, перешкода на шляху вираження змінних способами, що підходять для даних та рішень, що приймаються з ними. Хтось, хто працює з цієї останньої точки зору, буде вільно переходити між категоричними та «безперервними» поданнями даних; для них це питання навіть не може виникнути! Натомість слід запитати: як це допомагає?
whuber

@whuber (+1) Принаймні, здається, що важко оптимізувати надійність вимірювань та точність діагностики одночасно.
chl

Відповіді:


34

Я буду вважати, що "категоріальна" змінна насправді означає порядкову змінну; інакше не має сенсу трактувати це як безперервне, якщо тільки це не двійкова змінна (закодована 0/1), як вказує @Rob. Тоді я б сказав, що проблема полягає не в тому, як ми ставимося до змінної, хоча до цього часу було розроблено багато моделей категоричного аналізу даних - див., Наприклад, Аналіз упорядкованих категоріальних даних: Огляд та опитування останніх події від Ля і Agresti--, ніж основна шкала вимірювання ми припускаємо. Моя відповідь буде зосереджена на цьому другому пункті, хоча я спочатку коротко обговорюю присвоєння числових балів змінним категоріям або рівням.

Використовуючи просте числове перекодування порядкової змінної, ви припускаєте, що змінна має інтервальні властивості (у сенсі класифікації, наданої Стівенсом, 1946). З точки зору теорії вимірювань (у психології) це часто може бути занадто сильним припущенням, але для базового дослідження (тобто, коли один предмет використовується для висловлення думки про щоденну діяльність з чітким формулюванням) будь-які монотонні оцінки повинні дати порівнянні результати . Кохран (1954) вже вказував на це

будь-який набір балів дає дійсний тест за умови, що вони побудовані без консультацій з результатами експерименту. Якщо набір балів поганий, оскільки він погано спотворює числову шкалу, яка дійсно лежить в основі замовленої класифікації, тест не буде чутливим. Таким чином, бали повинні містити найкраще уявлення про спосіб побудови та використання класифікації. (стор. 436)

(Велика подяка @whuber за те, що він нагадував мені про це протягом одного з його коментарів, що призвело до того, що я перечитав книгу Агресті, з якої походить це цитування.)

М2М2=(н-1)r2

Ну, ви також можете вирішити перекодувати свою змінну в нерегулярному діапазоні або об'єднати деякі її рівні, але в цьому випадку сильний дисбаланс між перекодованими категоріями може спотворити статистичні тести, наприклад, вищезгаданий тренд-тест. Приємна альтернатива розподілу відстаней між категоріями вже запропонувала @Jeromy, а саме оптимальне масштабування.

Тепер давайте обговоримо другий пункт, який я зробив, основної моделі вимірювання. Я завжди вагаюся над тим, як додати тег «психометрика», коли бачу подібне питання, тому що побудова та аналіз вимірювальних шкал підпадають під Психометричну теорію (Nunnally and Bernstein, 1994, для акуратного огляду). Я не буду зупинятися на всіх моделях, які на насправді на чолі під пунктом теорії відгуку , і я люб'язно відсилаємо зацікавленого читача підручник І. Partchev в, Путівник по теорії відгуку елемента, для легкого вступу до IRT та до посилань (5-8), наведених наприкінці можливих таксономій IRT. Дуже коротко, ідея полягає в тому, що замість того, щоб призначати довільні відстані між змінними категоріями, ви припускаєте приховану шкалу і оцінюєте їх розташування на цьому континуумі разом з можливістю чи відповідальністю осіб. Простий приклад вартує багато математичних позначень, тому давайте розглянемо наступний пункт ( випливає з опитувальника якості якості життя EORTC QLQ-C30 ):

Ти хвилювався?

який кодується за чотирибальною шкалою, починаючи від "Зовсім не" до "Дуже багато". Неоцінені бали обчислюються шляхом присвоєння балу від 1 до 4. Оцінки за предметами, що належать до тієї самої шкали, потім можуть бути складені разом, щоб отримати так звану шкалу шкали, яка позначає ранг на базовій конструкції (тут компонент психічного здоров'я) ). Такі підсумовані бали за шкалою є дуже практичними через оцінку легкості (для практикуючого або медсестри), але вони є не більш ніж дискретною (упорядкованою) шкалою.

Можна також врахувати, що ймовірність схвалення даної категорії відповідей підпорядковується певній логістичній моделі, як описано в підручнику І. Парчева, згаданому вище. В основному, ідея полягає у такому вигляді порогової моделі (що призводить до еквівалентної формулювання з точки зору пропорційної або кумулятивної моделі шансів), і ми моделюємо шанси на те, щоб бути в одній категорії відповідей, а не попередньої або шансів на оцінку вище певна категорія, що залежить від місця розташування суб'єктів за прихованою ознакою. Крім того, ми можемо встановити, що категорії відповідей однаково розташовані за латентною шкалою (це модель шкали рейтингу) - що ми робимо, присвоюючи регулярно розміщені числові бали - чи ні (це модель часткового кредиту) .

Зрозуміло, ми не дуже додаємо Теорію класичного тестування, де порядкові величини трактуються як числові. Однак ми вводимо ймовірнісну модель, де ми припускаємо неперервну шкалу (з інтервальними властивостями) і де можна врахувати конкретні похибки вимірювання, і ми можемо підключити ці показники до будь-якої моделі регресії.

Список літератури

  1. Стів Стівенс. Про теорію шкал вимірювання. Наука , 103 : 677-680, 1946.
  2. χ2
  3. J Nunnally і я Бернштейн. Психометрична теорія . McGraw-Hill, 1994
  4. Алан Агрешті. Категоричний аналіз даних . Вілі, 1990.
  5. CR Rao та S Sinharay, редактори. Посібник зі статистики, Вип. 26: Психометрія . Elsevier Science BV, Нідерланди, 2007.
  6. A Boomsma, MAJ van Duijn та TAB Snijders. Нариси з теорії реагування на предмет . Спрингер, 2001.
  7. D Thissen та L Steinberg. Таксономія моделей реагування на елементи. Психометріка , 51 (4) : 567–577, 1986.
  8. P Mair і R Hatzinger. Розширене Rasch моделювання: МВК Пакет для застосування IRT моделей в R . Журнал статистичного програмного забезпечення , 20 (9) , 2007.

19

Якщо є лише дві категорії, то їх перетворення на (0,1) має сенс. Насправді це зазвичай робиться там, де отримана фіктивна змінна використовується в регресійних моделях.

Якщо існує більше двох категорій, то, я думаю, це має сенс лише в тому випадку, якщо дані є порядковими, і то лише в дуже конкретних обставинах. Наприклад, якщо я роблю регресію і прилаштовую непараметричну нелінійну функцію до порядкової чисельно-числової змінної, я думаю, що це нормально. Але якщо я використовую лінійну регресію, то я роблю дуже сильні припущення щодо відносної різниці між послідовними значеннями порядкової змінної, і я зазвичай неохоче це роблю.


1
"[T] hen Я роблю дуже сильні припущення щодо відносної різниці між послідовними значеннями порядкової змінної." Я думаю, що це ключовий момент, насправді. тобто наскільки сильно можна стверджувати, що різниця між групами 1 і 2 порівнянна з різницею між 2 і 3?
Freya Harrison

Я думаю, ви повинні зробити певне припущення про те, як слід розподіляти безперервну змінну, а потім спробувати вписати цю "псудогістограму" кожної категоріальної змінної частоти (я маю на увазі знайти ширину бінка, яка перетворить її на пристосовану гістограму). Тим не менш, я не фахівець у цій галузі, її швидка і брудна ідея.

Переформатування бінарних категорій на {0,1} має сенс, але перетворення їх на безперервний інтервал [0,1] здається трохи стрибком. Що стосується більш широкого фронту, я повністю з вашим небажанням зважувати порядкові порядки, якщо немає вагомих аргументів моделі.
walkytalky

18

Загальна практика трактувати впорядковані категоричні змінні з багатьма категоріями як безперервні. Приклади цього:

  • Кількість предметів правильна під час тесту на 100 предметів
  • Підсумована психологічна шкала (наприклад, це середнє значення для 10 предметів на п'ятибальній шкалі)

І під "трактуванням як безперервного" я маю на увазі включення змінної в модель, яка передбачає безперервну випадкову змінну (наприклад, як залежну змінну в лінійній регресії). Я думаю, питання полягає в тому, скільки балів на шкалі потрібно, щоб це було розумним спрощенням припущення.

Ще кілька думок:

  • Поліхоричні кореляції намагаються моделювати зв'язок між двома порядковими змінними з точки зору припущених прихованих безперервних змінних.
  • Оптимальне масштабування дозволяє розробити моделі, де масштабування категоріальної змінної розробляється способом, керованим даними, дотримуючись будь-яких обмежень масштабу (наприклад, звичайність). Про добре знайомство дивіться Де Ліу та Мейр (2009)

Список літератури

  • De Leeuw, J., & Mair, P. (2009). Методи Gifi для оптимального масштабування в R: Пакет гомалів. Журнал статистичного програмного забезпечення, найближчий час, 1-30. PDF

7

Дуже простий приклад, який часто не помічають, який повинен лежати в досвіді багатьох читачів, стосується оцінок чи оцінок, наданих академічній роботі. Часто позначення індивідуальних призначень по суті є порядковими вимірюваннями, що базуються на судженнях, навіть коли, як правило, вони даються у вигляді (скажімо) відсоткових знаків або знаків за шкалою з максимумом 5 (можливо, і з десятковими крапками). Тобто вчитель може прочитати есе чи дисертацію чи дипломну роботу або вирішити, що він заслуговує 42%, або 4, чи будь-що інше. Навіть коли оцінки базуються на детальній схемі оцінювання, шкала знаходиться в корені на деякій відстані від шкали вимірювання інтервалу чи відношення.

Але тоді багато установ вважають, що якщо у вас достатньо цих оцінок або оцінок, цілком розумно їх оцінювати (середній бал тощо) і навіть аналізувати їх більш детально. Тож у якийсь момент порядкові вимірювання перетворюються на підсумкову шкалу, яка трактується так, ніби вона була суцільною.

Поціновувачі іронії відзначають, що статистичні курси в багатьох кафедрах або школах часто навчають, що це в кращому випадку сумнівне і в гіршому випадку неправильне, весь цей час він реалізується як загальноуніверситетська процедура.


5

При аналізі ранжирування за частотою, як з діаграмою Парето та пов'язаними значеннями (наприклад, скільки категорій складають топ-80% помилок продукту)


5
Важливий момент, і він може бути розширений: Багато моделей для порядкових даних залежать від думки, що моделювати можуть не порядкові дані, а їх сукупні ймовірності.
Нік Кокс

4

Я зроблю аргумент, що трактувати справді категоричну, неординарну змінну як безперервну іноді може мати сенс.

Якщо ви будуєте дерева рішень на основі великих наборів даних, це може бути дорого з точки зору потужності обробки та пам'яті для перетворення категоричних змінних в фіктивні змінні. Крім того, деякі моделі (наприклад,randomForest в R) не можуть обробляти категоричні змінні з багатьма рівнями.

У цих випадках деревовидна модель повинна бути здатна ідентифікувати надзвичайно важливі категорії, НАКІЛЬКІ, якщо вони кодуються як суцільна змінна. Надуманий приклад:

set.seed(42)
library(caret)
n <- 10000
a <- sample(1:100, n, replace=TRUE)
b <- sample(1:100, n, replace=TRUE)
e <- runif(n)
y <- 2*a + 1000*(b==7) + 500*(b==42) + 1000*e
dat1 <- data.frame(y, a, b)
dat2 <- data.frame(y, a, b=factor(b))

y - неперервна змінна, a - суцільна змінна, а b - категоріальна змінна. Однак в dat1b трактується як безперервний.

Встановлюючи дерево рішень для цих двох наборів даних, ми виявляємо, що dat1це трохи гірше, ніж dat2:

model1 <- train(y~., dat1, method='rpart')
model2 <- train(y~., dat2, method='rpart')
> min(model1$results$RMSE)
[1] 302.0428
> min(model2$results$RMSE)
[1] 294.1411

Якщо ви подивитесь на дві моделі, то виявите, що вони дуже схожі, але модель1 пропускає значення b == 42:

> model1$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) a< 42.5 4206 407731400  553.5374 *
   3) a>=42.5 5794 554105700  657.9563  
     6) b>=7.5 5376 468539000  649.2613 *
     7) b< 7.5 418  79932820  769.7852  
      14) b< 6.5 365  29980450  644.6897 *
      15) b>=6.5 53   4904253 1631.2920 *
> model2$finalModel
n= 10000 

node), split, n, deviance, yval
      * denotes terminal node

 1) root 10000 988408000  614.0377  
   2) b7< 0.5 9906 889387900  604.7904  
     4) a< 42.5 4165 364209500  543.8927 *
     5) a>=42.5 5741 498526600  648.9707  
      10) b42< 0.5 5679 478456300  643.7210 *
      11) b42>=0.5 62   5578230 1129.8230 *
   3) b7>=0.5 94   8903490 1588.5500 *

Однак модель1 працює приблизно в 1/10 часу моделі2:

> model1$times$everything
   user  system elapsed 
  4.881   0.169   5.058 
> model2$times$everything
   user  system elapsed 
 45.060   3.016  48.066 

Звичайно, можна налаштувати параметри проблеми, щоб знайти ситуації, в яких dat2далеко перевершує dat1чи dat1трохи перевершує dat2.

Я не виступаю за те, щоб категоричні змінні трактували як безперервні, але я виявив ситуації, коли це значно скоротило час, необхідний для моїх моделей, не знижуючи їх точності прогнозування.


3

Дуже приємне резюме цієї теми можна знайти тут:

mijkerhemtulla.socsci.uva.nl PDF

"Коли категоричні змінні можна трактувати як безперервні? Порівняння надійних безперервних та категоричних методів оцінки SEM за неоптимальних умов."

Мійке Ремтулла, Патрісія Е. Brosseau-Liard та Victoria Savalei

Вони досліджують близько 60 сторінок варті методів для цього і дають зрозуміти, коли це корисно робити, який підхід застосувати та які сильні та слабкі сторони кожного підходу підходять до вашої конкретної ситуації. Вони охоплюють не всіх (як я навчаюсь, здається, існує безмежна кількість), але те, що вони роблять, вони покривають добре.


2

Є й інший випадок, коли це має сенс: коли дані відбираються з безперервних даних (наприклад, через аналого-цифровий перетворювач). Для старих інструментів АЦП часто буває 10-бітовим, даючи номінально порядкові дані категорії 1024, але для більшості цілей можна трактувати як реальні (хоча в нижньому кінці шкали будуть артефакти значень). Сьогодні АЦП частіше бувають 16 або 24-розрядні. На той момент, коли ви говорите 65536 або 16777216 "категорії", ви дійсно не маєте проблем з обробкою даних як безперервних.


Я погоджуюся з вашим підсумком, але, мабуть, такі дані ніколи не були порядковими для початку, а лише дискретизованими. Тут винні викладені методи легітимування співвідношення номінальних порядкових інтервалів, які часто не вказують на те, що порядкові мають на увазі дискретність, а не навпаки. Відлік є порядковим, але це також інтервал і відношення.
Нік Кокс

@ Nick Ordinal має на увазі дискретність? Не обов'язково. Постійні заходи можуть бути порядковими. Наприклад, фізіологічні змінні, такі як GSP або частота серцевих скорочень, є безперервними, але як заходи психологічних змінних, таких як тривога або збудження, вони мають лише порядковий характер. Поняття порядкового та інтервалу дійсно відноситься до лінійності функції, яка пов'язує міру з тим, що вона призначена для вимірювання.
Рей Коопман

Це цікаве зауваження, але, потрапляючи на цю територію, я не бачу, як можна взагалі класифікувати частоту серцевих скорочень без незалежних доказів того, що таке насправді тривожність, і в кінцевому підсумку більшість змінних, які розглядаються як проксі, не можуть бути класифікованими. Чи вдалося б ви відмовитися від використання методів для інтервальних чи коефіцієнтних даних кожного разу, коли ви переходите до шкали вимірювання як до порядкової? Я не думаю, що дані поводяться по-різному через те, що ви маєте намір робити з ними; це для мене суть питання.
Нік Кокс

1
@ Nick Питання полягає в тому, чи є функція, яка пов'язує вимірювану величину з "справжньою" величиною, достатньо близькою до лінійної, що трактування її як такої не призведе до помилкових суттєвих висновків, або вона повинна розглядатися як лише монотонна. Як правило, мало жорстких даних, на яких можна базувати рішення; це майже завжди буде судовим рішенням, щодо якого інформованим розумним людям, можливо, доведеться погодитися не погодитися.
Ray Koopman

1
Я думаю, що звичайний акцент при обговоренні шкал вимірювання в статистиці робиться на математичні властивості змінних і на те, які законні математичні операції для кожної. Це досить спірно. Наукове занепокоєння щодо того, чи щось мірить те, що, як мені належить, я з готовністю погоджуюся бути життєво важливим, але я вважаю досить іншою сферою дискусій.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.