Групуйте різниці за п’ятибальним елементом Likert


22

Виходячи з цього питання : Уявіть, що ви хочете перевірити на відмінності в центральній тенденції між двома групами (наприклад, чоловіки та жінки) на 5-бальному елементі Likert (наприклад, задоволення життям: Незадоволений задоволеним). Я думаю, що t-тест був би досить точним для більшості цілей, але тест завантаження різниць між груповими засобами часто давав би більш точну оцінку довірчих інтервалів. Який статистичний тест ви б використали?


2
Питання, пов'язане з цим: люди часто використовують непараметричний тест Манна-Уітні для такого роду даних. Оскільки можливі лише п'ять значень, зв'язаних чинів буде багато. Тест Манна-Уітні налаштовується на зв'язані ряди, але чи працює це коригування, коли існує величезна кількість зв'язків?
Харві Мотульський

5
Можливо, вас зацікавить ця остання стаття, опублікована в PARE, Five-Point Likert items : t test vs Mann-Whitney- Wilcoxon , j.mp/biLWrA .
chl

Я не впевнений, чи тест квадратних чі-квадратів також підходить, він перевіряє, чи є залежність між групами та елементами (різний розподіл між групами).
pe-pe-rry

Відповіді:


12

Clason & Dormody обговорили питання статистичного тестування предметів Лікерта ( Аналіз даних, виміряних окремими елементами типу Лікерта ). Я думаю, що випробування з завантаженням нормально, коли два розподіли виглядають схоже (дзвіночка і однакова дисперсія). Тим НЕ менше, тест на категоричні дані (наприклад , тенденцію або тест Фішера, або порядкову логістичну регресію) буде теж цікавий , так як це дозволяє перевірити розподіл відповідей через категорію елементів, див книги Агресті на категоричну аналізі даних (глава 7 на моделі логіт для мультиноміальні відповіді ).

Окрім цього, ви можете уявити ситуації, коли t-тест або будь-які інші непараметричні тести вийшли б з ладу, якщо розподіл відповідей сильно розбалансовано між двома групами. Наприклад, якщо всі люди з групи А відповідають 1 або 5 (в рівній пропорції), тоді як усі люди групи B відповідають на 3, то ви закінчуєтесь однаковою середньою групою, і тест взагалі не має сенсу, хоча в цьому випадку припущення гомоседастичності значною мірою порушено.


Стаття про Clason and Dormody виглядає добре. Ваші коментарі щодо поширення відповідей цікаві для розгляду. Я погоджуюся, що різниці у розподілах можуть представляти інтерес. Але якби вас цікавило лише те, чи відрізняються засоби групи населення, не обов'язково має значення, які розподіли породжували таку рівність.
Джеромі Англім

У цьому випадку ви припускаєте, що ваша шкала Лікерта (іншими словами, сприйнята різниця між, наприклад, дуже задоволеною та "просто" задоволеною) поводиться в ідеалі і сприймається як однакове значення для обох груп населення. Таким чином, ви неявно висловлюєте припущення, що це числова шкала, але я згоден, що це часто вважається таким у прикладних дослідженнях, особливо якщо учасники походять з однієї країни. Моя думка полягала лише в тому, щоб підкреслити категоричну перспективу аналізу даних, як це зазвичай зустрічається у традиції аналізу факторів, як у моїй відповіді на запитання №10.
chl

Я припускаю, що середнє значення вибірки, що відповідає на предмет Лікерта, є, як правило, змістовним підсумком позиції групи щодо основного виміру. Цікаво подумати про те, коли значення предмета Лайкерта систематично змінюватиметься між групами. Звичайно, це питання поширюється за межі лише предметів Лікерта, ймовірно, до будь-якої суб'єктивної процедури вимірювання.
Джеромі Англім

8

Залежно від розміру відповідного набору даних, тест на перестановку може бути кращим перед завантажувальним рядком, оскільки він може бути в змозі забезпечити точний тест гіпотези (і точного ІС).


4

IMHO не можна використовувати t-тест для шкал Likert. Шкала Лікерта є порядковою і «знає» лише про відносини значень змінної: наприклад, «абсолютно незадоволений» гірше, ніж «якось незадоволений». З іншого боку, для t-тесту необхідно обчислити значення і більше, і тому потрібні інтервальні дані. Ви можете зіставити шкали за шкалою Лікерта на дані інтервалу ("абсолютно незадоволений" - це 1 і так далі), але ніхто не гарантує, що "абсолютно незадоволений" - це та ж відстань до "якось незадоволених", як "якось незадоволений" від "ні", ні ". До речі: в чому різниця між "абсолютно незадоволеними" та "якось незадоволеними"? Отже, врешті-решт, ви зробите тест на кодовані значення своїх порядкових даних, але це просто не має сенсу.


9
... і все ж це робиться зазвичай. Одне, що слід зазначити, і так, це трохи педантично, якщо ви використовуєте один елемент типу «Лікерт», який не є шкалою Лікерта. Різниця є змістовною (хоча запитуючий питання говорить про предмет Лікерта, і звичайність - це питання). Шкала Лікерта є наслідком підсумовування або усереднення кількох предметів Лікерта. Цей підхід був розроблений спеціально для того, щоб компенсувати, наскільки порядкові дані насправді були порядковими, і зробити його більш обґрунтованим трактувати як інтервальну шкалу.
russellpierce

3

Якщо кожен елемент опитувальника є порядковим, і я не думаю, що цей пункт можна оскаржувати, враховуючи те, як немає способу дізнатися, чи є кількісна різниця між "сильно згідною" та "згодою" такою, як і між " сильно не погоджуються "і" не погоджуються ", то чому б підсумовування всіх цих порядкових шкал рівня дало значення, яке розділяє властивості справжніх даних інтервального рівня?

Наприклад, якщо ми інтерпретуємо результати інвентаризації депресії, не має сенсу (як мінімум, для мене) говорити, що людина з оцінкою "20" вдвічі менша, ніж людина з оцінкою " 10 ". Це пояснюється тим, що кожен елемент опитувальника не вимірює фактичні відмінності в рівнях депресії (якщо припустити, що депресія є стабільним, інтенальним, органічним розладом), а скоріше суб'єктивний рейтинг особи, який відповідає з конкретним твердженням. На запитання: "як депресивно ви б сказали, що ваш настрій знаходиться за шкалою 1-4, 1 дуже пригнічений, а 4 зовсім не пригнічений", як я можу знати, що суб'єктивна оцінка одного респондента 1 така ж, як і у іншого респондента ? Або як я можу знати, чи різниця між 4 і 3 збігається з 3 і 4 в особі " s сучасний рівень депресії. Якщо ми не можемо знати нічого з цього, то не має сенсу трактувати підсумок всіх цих порядкових елементів як дані інтервального рівня. Навіть якщо дані утворюють звичайний розподіл, я не вважаю за доцільне трактувати відмінності між балами як дані інтервального рівня, якщо вони були обчислені шляхом додавання всіх відповідей до позицій, які відповідають. Нормальний розподіл даних просто означає, що відповіді, ймовірно, є представниками більшої кількості населення; це не означає, що значення, отримані з товарних запасів, мають важливі властивості даних інтервального рівня. t думаю, що доцільно трактувати відмінності між балами як дані інтервального рівня, якщо вони були обчислені шляхом складання всіх відповідей на елементи, що цікавлять. Нормальний розподіл даних просто означає, що відповіді, ймовірно, є представниками більшої кількості населення; це не означає, що значення, отримані з товарних запасів, мають важливі властивості даних інтервального рівня. t думаю, що доцільно трактувати відмінності між балами як дані інтервального рівня, якщо вони були обчислені шляхом складання всіх відповідей на елементи, що цікавлять. Нормальний розподіл даних просто означає, що відповіді, ймовірно, є представниками більшої кількості населення; це не означає, що значення, отримані з товарних запасів, мають важливі властивості даних інтервального рівня.

Нам слід бути обережними в науках про поведінку щодо того, як ми використовуємо статистику для розмови з прихованими змінними, які ми вивчаємо, оскільки, оскільки немає прямого способу вимірювання цих гіпотетичних конструкцій, виникають значні проблеми, коли ми намагаємося кількісно оцінити їх предмет до параметричних тестів. Знову ж таки, те, що ми призначили набір значень відповідей, не означає, що відмінності між цими значеннями мають сенс.


1
Якщо ви щасливі підсумовувати результати, ви вже припустили більш ніж строго порядковий рівень вимірювання. Строго кажучи, порядкові заходи не можуть бути змістовно додані або усереднені (до речі, Стівенс це зрозумів). Після того, як ви це зробите, трактувати отримані оцінки як дані інтервального рівня цілком розумно.
Гала

0

Модель пропорційного коефіцієнта краще, ніж t-тест за шкалою предмета Лікерта.


1
Чи хотіли б ви пояснити свої причини? Я бачу, як така модель могла б дати більш точну модель спостережуваних відповідей. Однак у типових практичних дослідницьких ситуаціях, які я бачив, дослідників цікавить, чи відрізняються дві групи за середнім рівнем (наприклад, чи навчальна група повідомила про більшу ефективність, ніж контроль; чи було задоволеність студентів вищою на рік до наступного ). Модель пропорційного співвідношення шансів не перевіряє це питання саме настільки, наскільки мені відомо.
Джеромі Англім

0

Я спробую пояснити модель пропорційного коефіцієнта шансів у цьому контексті, оскільки вона була запропонована і вказана щонайменше у двох відповідях на це питання.

Тестовий бал моделі пропорційних коефіцієнтів еквівалентний тесту суми рангів Вілкоксона.

Точніше, статистична оцінка тесту на відсутність ефекту одиничного дихотомічного коваріату в пропорційній кумулятивній логістичній регресійній моделі (McCullagh 1980) для порядкового результату була показана рівною статистичній статистиці за результатами тесту Вілкоксона. (Доказ у розширенні тесту Wilcoxon Rank-Sum для складних даних вибіркового опитування .)

Так само, як і тест за сумою рангів Вілкоксона, цей тест визначає, чи були взяті два зразки з різних розподілів, незалежно від очікуваних значень.

Цей тест є недійсним, якщо ви хочете лише визначити, чи були взяті два зразки з розподілів з різними очікуваними значеннями, як і тест з рейтинговою сумою Wilcoxon.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.