Обчисліть середнє значення порядкової змінної


20

Я читав у кількох місцях, що обчислення середньої порядкової величини недоцільно. Я намагаюся зрозуміти, чому це може бути недоречно. Я думаю, що це тому, що, як правило, порядкова змінна нормально не розподіляється, і тому обчислення середнього дасть неточне представлення. Чи може хтось дати більш детальні міркування, чому обчислення середньої порядкової змінної може бути невідповідним?


8
Для підрахунку середнього значення спочатку потрібна сума. Щоб сума була значимою, вам потрібно, щоб 4 + 2 були такими ж, як 3 + 3; рівнозначно, вам потрібно 4-3 = 3-2 = 2-1. З порядковими даними - навіть коли його категорії позначені позначками "1", "2", "3", "4" - це (зовсім явно) не обов'язково.
Glen_b -Встановити Моніку

І чому б медіана була більш доречною, ніж середня арифметика?

Відповіді:


24

Коротка відповідь - це суперечка. На відміну від поради, яку ви згадуєте, люди в багатьох сферах користуються порядковими терезами і часто раді, що значить роблять те, що хочуть. Середні рівні балів або їх еквівалент в багатьох освітніх системах є одним із прикладів.

Однак порядкові дані, які зазвичай не поширюються, не є вагомою причиною, оскільки середня величина є

  • широко використовується для ненормативних розподілів

  • чітко визначені математично для дуже багатьох ненормальних розподілів, за винятком деяких патологічних випадків.

Можливо, не дуже корисно використовувати засіб на практиці, якщо дані, безумовно, нормально не поширюються, але це інакше.

Більш сильною причиною невикористання середнього значення з порядковими даними є те, що його значення залежить від умовних умов кодування. Числові коди, такі як 1, 2, 3, 4, зазвичай вибираються для простоти чи зручності, але в принципі вони могли б однаковою мірою бути 1, 23, 456, 7890, наскільки це відповідає певному порядку. Прийняття середини в будь-якому випадку передбачає розуміння цих конвенцій буквально (а саме, як ніби цифри не є довільними, але виправданими), і для цього немає жорстких підстав. Вам потрібна інтервальна шкала, в якій однакові різниці між значеннями можна вважати буквально для обгрунтування прийому засобів. Це я вважаю головним аргументом, але, як уже вказувалося, люди часто ігнорують це і навмисно, оскільки вони знаходять засоби корисними, як би не говорили теоретики вимірювань.

Ось додатковий приклад. Часто людей просять вибрати один із "категорично не згоден" ... "повністю згоден" і (залежно частково від того, що програмне забезпечення хоче), дослідники кодують, що як 1 .. 5 або 0 .. 4, або що вони хочуть, або заявляють про це як упорядкований фактор (або будь-який термін, який використовує програмне забезпечення). Тут кодування довільне і приховане від людей, які відповідають на питання.

Але часто також людей запитують (скажуть) за шкалою від 1 до 5, як ти щось оцінюєш? Прикладів безліч: веб-сайти, спорт, інші види змагань і справді освіта. Тут людям показують масштаб і просять його використовувати. Широко розуміється, що нецілі числа мають сенс, але вам просто дозволено використовувати цілі числа в якості конвенції. Це порядковий шкала? Деякі кажуть "так", деякі "ні". Інакше кажучи, частина проблеми полягає в тому, що те, що є порядковим масштабом, саме по собі нечітка або обговорювана область.

Розгляньте ще раз оцінки за академічну роботу, скажімо від Е до А. Часто такі оцінки також розглядаються чисельно, наприклад, від 1 до 5, і звичайно люди обчислюють середні показники для студентів, курсів, шкіл тощо та роблять подальший аналіз таких даних. Незважаючи на те, що будь-яке відображення чисельних балів є довільним, але прийнятним, якщо воно забезпечує порядок, проте на практиці люди, які присвоюють та отримують оцінки, знають, що бали мають числові еквіваленти і знають, що оцінки будуть усередненими .

Однією з прагматичних причин використання засобів є те, що медіани та режими часто є поганими підсумками інформації в даних. Припустимо, у вас є шкала, яка працює від сильно не погоджуваної і для зручності кодуйте ті пункти 1 - 5. Тепер уявіть собі, що один зразок кодується 1, 1, 2, 2, 2 та інший 1, 2, 2, 4, 5. Тепер підніміть ваші руки, якщо ви думаєте, що медіана та режим - єдині виправдані підсумки, оскільки це порядковий шкала. Тепер підніміть руки, якщо ви вважаєте, що середнє теж корисне, незалежно від того, чи добре визначені суми тощо.

Природно, середнє було б підсумком гіперчутливості, якби, наприклад, кодами були квадрати або кубики від 1 до 5, і це може бути не те, що потрібно. (Якщо ваша мета - швидко визначити флаєри, це може бути саме те, що ви хочете!) Але саме тому звичайне кодування з послідовними цілими кодами є практичним вибором, оскільки це часто досить добре працює на практиці. Це не аргумент, який має будь-яку вагу з теоретиками вимірювань, і не повинен, але аналітикам даних слід бути зацікавленим у створенні багатих інформацією резюме.

Я погоджуюся з тим, хто каже: використовуйте весь розподіл частотних частот, але це не питання.


1
Велика відповідь і прагматизм важливі, але я хотів би додати одну нотку обережності. Хорошою причиною для використання лише офіційно встановлених методів є те, що ви отримуєте доступ до оцінок визначеності & c. Наприклад, якщо у нас є два GPA, скажімо, 4,53 та 4,34, ми можемо захотіти знати, чи є один "значно" кращий за інший. Але через відсутність формальності при усередненні оцінок ми не отримуємо такі речі, як інтервали довіри & c.
Stephen McAteer

1
@StephenMcAteer Я бачу вашу думку щодо методів, викладених у типовому вступному тексті чи курсі. Але якби це було бажання, завантажувальна програма запропонувала технологію, що дозволяє довіряти інтервали майже 40 років.
Нік Кокс

3

Припустимо, ми беремо порядкові значення, наприклад, 1 для сильно не погоджуються, 2 для не погоджуються, 3 для згоди і 4 для сильної згоди. Якщо чотири людини дають відповіді 1,2,3 та 4, то що було б середнє? Це (1 + 2 + 3 + 4) /4=2.50.

Як це слід інтерпретувати, коли середньозважена відповідь чотирьох осіб "не згодна чи згодна"? Ось чому ми не повинні використовувати значення для порядкових даних.


3
Трохи граючи захисника диявола, у цьому прикладі я б інтерпретував 2,5 як напівпосереднє між 2, "не згоден" і 3, "згоден". Це має сенс як середній показник, враховуючи, що ми «сильно не погоджуємось» проти «сильно погоджуємось» та «не погоджуємось» проти «згодні».
TooTone

1
Середнє значення 2,5 в цьому контексті для мене все ще має сенс - на півдорозі між незгодою і згодою, або іншими словами, нейтрально.
luciano

3
Я думаю, що Azeem потребує більш вагомого прикладу. Ви можете заперечити проти 2,5 як середнього показника 1, 2, 3, 4 дитини на сім'ю з тих же ознак, як це трактувати, оскільки це не одне із визначених значень. Це викликає різні питання.
Нік Кокс

2
Я думаю, ви можете посилити свою відповідь, і я закликаю вас це зробити. "тому що середнє може бути невизначеним значенням" тут не є сильним аргументом, логічно чи психологічно, і не зосереджується на більш глибокому питанні того, чи дійсно однакові різниці означають однакові різниці.
Нік Кокс

1
Я не знаю, як я можу зробити це більш зрозумілим, але (наприклад, "0-4", "5-19", "20-114" впорядковані (порядкові), оскільки для цих вимірювань існує лише один природний порядок (короткий виворот). Якщо ви хочете зателефонувати їм також і до інших речей, мене це добре.
Нік Кокс

2

Я повністю погоджуюся з @Azeem. Але тільки щоб загнати цю точку додому, дозвольте мені детальніше розібратися.

Скажімо, у вас є порядкові дані, як у прикладі з @Azeem, де ваша шкала коливається від 1 до 4. І скажімо також, що у вас є кілька людей, які оцінюють щось (наприклад, морозиво) за цією шкалою. Уявіть, що ви отримаєте такі результати:

  • Людина А сказала 4
  • Людина Б сказала 3
  • Людина C сказала 1
  • Людина D сказала 2

Коли ви хочете інтерпретувати результати, ви можете зробити щось у висновку:

  • Людина A любила морозиво більше, ніж Person B
  • Персона D любила морозиво більше, ніж Person C

Однак ви нічого не знаєте про інтервали між рейтингами. Чи різниця між 1 і 2 збігається між 3 і 4? Чи дійсно рейтинг 4 означає, що людині подобається морозиво в 4 рази більше, ніж той, хто оцінює його як 1? І так далі ... Коли ви обчислюєте середнє арифметичне, ви ставитесь до чисел так, ніби різниці між ними рівні. Але це досить сильне припущення з порядковими даними, і вам доведеться це виправдати.


Я відредагував посилання на відповідь вище. Відповіді можуть змінити порядок, і справді відповідь, яка була вище, знаходиться в цей момент нижче, і це може змінитися. Тож перехресне посилання на плакати, а не на позицію.
Нік Кокс

0

Я погоджуюся з концепцією того, що середні арифметичні не можуть бути по-справжньому виправданими в даних порядкових масштабів. Замість обчислення середнього значення ми можемо використовувати режим або медіану в таких ситуаціях, які можуть дати нам більш змістовне тлумачення наших результатів.


Це не стосується питання, чому це може бути невідповідним.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.