Як узагальнити категоричні дані?


13

Я боровся з наступною проблемою, сподіваюсь, це легка проблема для статистиків (я програміст із деяким впливом на статистику).

Мені потрібно узагальнити відповіді на опитування (для управління). В опитуванні є 100+ питань, згрупованих у різних областях (з приблизно 5 до 10 питань на область). Усі відповіді є категоричними (у порядковому масштабі вони схожі на "зовсім не", "рідко" ... "щодня чи частіше").

Керівництво хотіло б отримати резюме для кожної області, і це моя проблема: як зібрати категоричні відповіді у відповідне питання? . Питань занадто багато, щоб скласти графік або навіть грати грат для кожної області. Я віддаю перевагу візуальному підходу, якщо це можливо, порівняно з, скажімо, таблицями з цифрами (на жаль, вони їх не прочитають).

Єдине, що я можу придумати - це підрахувати кількість відповідей у ​​кожній області, а потім побудувати гістограму.

Чи є ще якісь доступні для категоричних даних?

Я використовую R, але не впевнений, що це актуально, я вважаю, що це більше загальне питання статистики.


Як щодо PCA / FA? Ви зможете зменшити корельовані змінні на фактори і працювати звідти ...
Роман Луштрик,

це може бути занадто багато, якщо керівництво запитає "як ви отримали зведені числа?" вони захочуть більш просту техніку, щоб вони могли (відчути, що вони) це зрозуміли. На жаль, реальний світ :-( Спасибі, однак.
wishihadabettername

Відповіді:


10

Вам дійсно потрібно розібратися, на яке питання ви намагаєтесь відповісти, або яке питання найбільше цікавить менеджмент. Тоді ви можете вибрати питання опитування, які є найбільш актуальними для вашої проблеми.

Не знаючи нічого про вашу проблему чи набір даних, ось кілька загальних рішень:

  • Візуально представляйте відповіді як кластери. Моя улюблена - або використовуючи дендрограми, або просто будуючи графік на осі xy (Google "кластерний аналіз r" і переходити до першого результату statmethods.net)
  • Поставте питання за найвищими до найменш "щоденних чи частіших" відповідей. Це приклад, який може не зовсім працювати для вас, але, можливо, він надихне вас http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
  • Перехресні вкладки: якщо, наприклад, у вас є питання "Як часто ви запізнюєтесь на роботу?" та "Як часто ви користуєтесь Facebook?", перехресним переходом на два питання ви зможете дізнатися відсоток людей, які рідко роблять те й інше, або що роблять обидва щодня. (Google "r частотні переклади" або переходять до вищезазначених statmethods.net )
  • Корелограми. Я не маю жодного досвіду з цим, але я бачив це і на веб-сайті statmethods.net. В основному ви виявляєте, які питання мають найбільше співвідношення, а потім створюєте таблицю. Ви можете вважати це корисним, хоча воно виглядає «зайнятим».

Я позначу це як відповідь; є кілька хороших пропозицій, тому я подумаю, як їх застосувати.
wishihadabettername

9

Є приємний документ про методи візуалізації, якими ви можете скористатися Майклом Дружнім:

(Насправді, є ціла книга, присвячена цьому тим же автором.) Пакет vcd в R реалізує багато з цих методів.


рекомендується для посилання на папір і книгу, я прочитаю їх
wishihadabettername

8

Стандартні варіанти включають:

  • отримання середнього значення для предметів у масштабі (наприклад, якщо шкала становить від 1 до 5, середнє значення буде від 1 до 5)
  • перетворення кожного елемента у двійковий вимір (наприклад, якщо предмет> = 3, то 1, інакше 0), а потім прийняття середнього значення цього двійкового відповіді

З огляду на те, що ви збираєтесь за елементами та над великими зразками людей в організації, обидва варіанти вище (тобто середнє значення від 1 до 5 або середнє значення відсотків вище точки) будуть надійними на рівні організації ( див. Тут для подальше обговорення ). Таким чином, будь-який із перерахованих вище варіантів в основному передає ту саму інформацію.

Взагалі, я б не переймався тим, що предмети є категоричними. На той час, коли ви створюєте масштаби, агрегуючи по елементах, а потім агрегуючи над своєю вибіркою респондентів, шкала буде близьким наближенням до безперервної шкали.

Керівництво може знайти одну метрику простішою для інтерпретації. Коли я отримую бали якості викладання (тобто середній бал задоволеності студентів, скажімо, 100 учнів), це середнє значення за шкалою від 1 до 5, і це добре. Протягом багатьох років після того, як я бачив власні оцінки з року в рік, а також бачив деякі норми для університету, я розробив орієнтир того, що означають різні значення. Однак керівництво іноді вважає за краще думати про відсоток, який підтверджує твердження, або відсоток позитивних відповідей, навіть коли це в певному сенсі середній відсоток.

Основний виклик - дати деяку відчутну орієнтир для балів. Керівництво захоче знати, що насправді означають цифри . Наприклад, якщо середня відповідь шкали становить 4,2, що це означає? Це добре? Це погано? Це просто гаразд?

Якщо ви використовуєте опитування протягом декількох років або в різних організаціях, тоді ви можете почати розробляти деякі норми. Доступ до норм є однією з причин, що організації часто отримують зовнішнього постачальника опитування або використовують стандартне опитування.

Ви також можете провести факторний аналіз, щоб підтвердити, що присвоєння предметів масштабам емпірично виправдано.

З точки зору візуального підходу, ви можете мати просту лінійку або діаграму з типом масштабу на осі x та балом на осі y. Якщо у вас є нормативні дані, ви також можете їх додати.


1

Так. Я вважаю, що кластеризація є дуже ефективним підходом до скорочення даних для зменшення даних опитування як для розуміння, так і для представлення управління.

Аналіз латентного класу (трактування шкал відповідей як порядкових) або k-засобів (трактування їх як безперервний) може розглядатися як форма стиснення інформації . Класифікація респондентів у їх найбільш вірогідному сегменті, як правило, дає категоричну змінну, яка має інтуїтивно зрозумілі пояснення під час профілювання з точки зору відповідей.

Потім можна назвати сегменти та використовувати ці змінні для аналізу та подання підсумкового рівня.

Встановіть кластер для груп пов'язаних елементів (наприклад, нижче) або, можливо, всіх разом.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

Я часто використовую LatentGold, але вважаю, що FASTCLUS в SAS є хорошим доцільним.

Перш ніж це зробити, вам потрібно розглянути можливість коригування відповідей кожної людини для їх використання за шкалою (суперечливою, але прагматичною). Деякі люди просто схиляються на одному кінці шкали, уникаючи негативного чи позитивного. Кластеризація необроблених відповідей, як правило, поділяє людей за такою поведінкою.

Стандартизація відповідей кожного респондента на власну середню і кластеризація, що часто виявляє змінні, які рухаються разом дуже цікавими способами.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.