Яку підсумкову статистику використовувати для категоричних чи якісних змінних?


18

Просто для уточнення, коли я маю на увазі підсумкову статистику, я маю на увазі середній, середній квартільний діапазон, дисперсія, стандартне відхилення.

Підсумовуючи однозначний, який є категоричним або якісним , враховуючи і номінальний, і ординарний випадки, чи є сенс знаходити його середній, медіанний, четвертичний діапазони, дисперсію та стандартне відхилення?

Якщо так, то це відрізняється від того, якби ви підсумовували суцільну змінну, і як?


2
Я ледве бачу різниці між категоріальною та якісною змінною, за винятком термінології. У будь-якому випадку, було б дуже важко обчислити що-небудь середнє або SD за номінальною змінною (наприклад, колір волосся). Можливо, ви думаєте про категоричні змінні з упорядкованими рівнями?
chl

Ні, якщо категоричні дані мають порядок або класифікований рівень, вони вважаються звичайними згідно з цим веб-сайтом: [ stats.gla.ac.uk/steps/glossary/presenting_data.html#orddat] , і там написано "Ви можете порахувати і порядок, але не мір, порядкові дані "
chutsu

Але я помиляюся?
чуцу

Відповіді:


8

Загалом, відповідь - ні. Однак можна стверджувати, що ви можете взяти медіану порядкових даних, але ви, звичайно, будете мати категорію як медіану, а не число. Медіана ділить дані порівну: наполовину вище, наполовину внизу. Звичайні дані залежать лише від порядку.

Крім того, в деяких випадках звичайність може бути внесена в грубі дані інтервального рівня. Це вірно, коли порядкові дані групуються (наприклад, питання про доходи часто задаються таким чином). У цьому випадку ви можете знайти точну медіану, і, можливо, ви зможете наблизити інші значення, особливо якщо вказані нижня та верхня межі: Ви можете припустити деякий розподіл (наприклад, рівномірний) у межах кожної категорії. Інший випадок порядкових даних, який можна зробити інтервалом, - це коли рівні даються числові еквіваленти. Наприклад: Ніколи (0%), іноді (10-30%), приблизно в половину часу (50%) тощо.

Щоб (ще раз) процитувати Девіда Кокса:

Існують не звичайні статистичні питання, а лише сумнівні статистичні процедури


1
Ви надаєте хорошу пов’язану інформацію, але я думаю, що у відповідь на питання chl, ОП дала зрозуміти, що він говорить про категоричні дані, які не є порядковими. Таким чином, ваша відповідь насправді не відповідає, але я не є тим, хто би дав протиправку. Але я думаю, ви повинні змінити це на коментар.
Майкл Р. Черник

1
Ні, я не спростовую відповідь, оскільки, думаю, це додало певної цінності моєму обмеженому розумінню. У своєму описі я мав би дати зрозуміти, що я розглядаю як звичайну, так і номінальну підсумкову статистику, тому помилка моя.
чуцу

5

Як вже було сказано, засоби категорій SD і шарніри не мають значення для категоричних даних. Шарнірні точки (наприклад, медіана і чверть) можуть мати значення для порядкових даних. У вашому заголовку також запитується, яку підсумкову статистику слід використовувати для опису категоричних даних. Стандартно характеризувати категоричні дані за підрахунками та відсотками. (Ви також можете включити 95% -ний довірчий інтервал навколо відсотків.) Наприклад, якщо ваші дані:

"Hispanic"         "Hispanic"        "White"             "White"            
"White"            "White"           "African American"  "Hispanic"        
"White"            "White"           "White"             "other" 
"White"            "White"           "White"             "African American"
"Asian"

Ви можете їх узагальнити так:

White             10 (59%)
African American   2 (12%)
Hispanic           3 (18%)
Asian              1 ( 6%)
other              1 ( 6%)

3

Якщо у вас є номінальні змінні, немає функції впорядкування чи відстані. То як би ви могли визначити будь-яку із зведених статистичних даних, які ви згадуєте? Я не думаю, що ти можеш. Квартілі та діапазон принаймні потребують впорядкування, а засоби та відхилення потребують числових даних. Я думаю, що гістограми та кругова діаграма є типовими прикладами правильних способів узагальнення якісних змінних, які не є порядковими.


3
@PeterFlom Моя думка полягала не в тому, щоб перелічити всі можливі графічні процедури узагальнення якісних даних. Я дуже хочу підкреслити, що насправді можна порівняти пропорцію та спосіб розподілу пропорцій за категоріями. Для візуального розпізнавання відмінностей у пропорціях, я думаю, барні діаграми легше візуалізувати, ніж кругові діаграми, але вони є лише двома популярними способами узагальнення категоричних даних. Я не хочу сказати, що вони найкращі, оскільки я не знайомий з усіма доступними методами.
Майкл Р. Черник

7
Вони, безумовно, популярні! Але я вважаю, що це як наша відповідальність, як фахівців у цій галузі, зробити пироги менш популярними.
Пітер Флом - Відновити Моніку

3
По-перше, Клівленд показав, що люди гірше сприймають кутове вимірювання, ніж лінійна відстань. По-друге, що зміна кольорів на круговій діаграмі змінило уявлення людей про розмір скибочок. По-третє, обертання кругової діаграми змінило уявлення людей про розмір скибочок. По-четверте, у людей виникли проблеми із замовленням скибочок від найбільшого до найменшого, якщо вони не були різного розміру. Клівлендські крапкові сюжети уникають усього цього.
Пітер Флом - Відновити Моніку

6
@Michael "Таблиця майже завжди краща за тупий пиріг; лише гірша конструкція, ніж кругова діаграма, є декілька з них. Пироги не повинні використовуватись ніколи". - Туфте. "Дані, які завжди можуть бути показані круговими діаграмами, завжди можуть бути показані точковою діаграмою. ... У 1920-х роках на сторінках JASA вирував битву щодо відносних достоїнств пирогів та розділених гістологічних діаграм ... обидва табори програють, оскільки інші графіки працюють набагато краще, ніж або розділені гістограми, або кругові діаграми. "- Клівленд. Як відомо, Клівленд не приписує: це настільки сильно, наскільки він нічого не сприймає.
whuber

6
BTW, @Michael, я згоден з вами і аргументи, які ви висловлюєте в цій темі (що я вважаю переконливим і добре представленим), але як модератор я повинен висловити сильні заперечення, висловлені членами громади щодо "тону голосу" ви приймаєте. Дотримуйтесь етикет сайту: дотримуйтесь теми та не нападайте на інших. Не пишіть навіть речі, які можуть звучати як напад, навіть на жарт. Звичайно ж застереження поширюється на всіх.
whuber

2

Режим все ще працює! Це не важлива підсумкова статистика? (Що найпоширеніша категорія?) Я думаю, що середня пропозиція має мало значення як статистика, але режим є.

Також підрахуємо, що окреме було б корисно (Скільки у вас категорій?)

Ви можете створити співвідношення, як-от (найпоширеніша категорія) / (найменш поширена категорія) або (# 1 найпоширеніша категорія) / (№2 найпоширеніша категорія). Також (найпоширеніша категорія) / (всі інші категорії), як правило 80/20.

Ви також можете присвоїти номери своїм категоріям і перебрати всі звичайні статистичні дані. AA = 1, Hisp = 2 і т. Д. Тепер ви можете обчислити середнє, медіанне, режим, SD тощо.


0

Я вдячний за інші відповіді, але мені здається, що деякі топологічні передумови дають дуже потрібну структуру відповідей.

Визначення

Почнемо з встановлення визначень доменів:

  • категорична змінна - це те, чий домен містить елементи, але між ними немає відомих зв’язків (таким чином, у нас є лише категорії). Приклади залежать від контексту, але я б сказала, що в загальному випадку складно порівняти дні тижня: чи понеділок перед неділею, якщо так, то як щодо наступного понеділка? Можливо, простіший, але менш вживаний приклад - це одяг: не надаючи певного контексту, який би мав сенс для замовлення, важко сказати, чи підійдуть брюки перед перемичками чи навпаки.

  • порядкова змінна - це загальний порядок, визначений над доменом, тобто для кожного двох елементів домену ми можемо сказати, що або вони однакові, або один більший, ніж інший. Лайкерт масштаб є хорошим прикладом визначення порядкового змінним. "дещо згоден", безумовно, ближче до "сильно погоджуюсь", ніж "не згоден".

  • змінна інтервал - це та, домен якої визначає відстані між елементами ( метрикою ), що дозволяє нам визначати інтервали.

Приклади доменів

Як найпоширеніший набір, який ми використовуємо, натуральні та реальні числа мають стандартний загальний порядок та показники. Ось чому нам потрібно бути обережними, коли ми присвоюємо номери нашим категоріям. Якщо ми не обережно нехтуємо порядком та відстані, ми практично перетворюємо наші категоричні дані в інтервальні дані. Коли людина використовує алгоритм машинного навчання, не знаючи, як це працює, ризикує робити такі припущення небажано, тим самим потенційно недійсними є власні результати. Наприклад, найпопулярніші алгоритми глибокого навчання працюють з реальними числами, користуючись їх інтервальними та безперервними властивостями. Інший приклад, подумайте про 5-бальну шкалу Лікерта, і як аналіз, який ми застосовуємо до них, передбачає, що відстань між сильно погоджуються і згодні- це те саме, що не погоджуватися і не погоджуватися, не погоджуватися . Важко зробити справу для таких відносин.

Ще один набір, з яким ми часто працюємо, - це струнні . Існує ряд показників подібності рядків, які корисні при роботі з рядками. Однак це не завжди корисно. Наприклад, за адресами, Джон Сміт Стріт та Джон Сміт Роуд досить близькі за рівнем схожості рядків, але, очевидно, являють собою дві різні сутності, які можуть бути милями один від одного.

Зведена статистика

Гаразд, тепер давайте подивимося, як деякі зведені статистичні дані вміщуються в цьому. Оскільки статистика працює з числами, її функції чітко визначені через інтервали. Але давайте подивимось приклади того, чи / як ми могли б узагальнити їх до категоричних чи порядкових даних:

  • режим - і під час роботи з категоричними, і порядковими даними ми можемо сказати, який елемент найчастіше використовується. Так у нас це є. Тоді ми також можемо отримати всі інші заходи, які @Maddenker перераховує у своїй відповіді. Інтервал довіри @ Гунга також може бути корисним.
  • медіана - як говорить @ peter-flom, якщо у вас є замовлення, ви можете отримати медіану.
  • означають , але також стандартне відхилення, процентні пункти тощо - ви отримуєте їх лише з інтервальними даними, через необхідність метрики відстані.

Приклад контекстуальності даних

Наприкінці я хочу ще раз підкреслити, що порядок та показники, які ви визначаєте у своїх даних, є дуже контекстуальними. Це вже повинно бути очевидним, але дозвольте навести останній приклад: працюючи з географічними місцями, у нас є багато різних способів наблизитись до них:

  • якщо нас цікавить відстань між ними, ми можемо працювати з їх геолокацією, яка в основному дає нам двовимірний числовий простір, таким чином інтервал.
  • якщо нас цікавить їх частина стосунків, ми можемо визначити загальний порядок (наприклад, вулиця - частина міста, два міста рівні, континент містить країну)
  • якщо нас цікавить, чи представляють два рядки одну і ту ж адресу, ми могли б працювати з деякою строковою дистанцією, яка б терпіла орфографічні помилки та міняла місцями слова, але обов'язково розрізняйте різні терміни та назви. Це непроста річ, а просто зробити так.
  • Є багато інших випадків використання, з якими ми стикаємося щодня, і нічого з цього не має сенсу. У деяких з них не залишається нічого іншого, як трактувати адреси як просто різні категорії, в інших це зводиться до дуже розумного моделювання та попередньої обробки даних.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.