Чи слід використовувати середнє значення при перекосі даних?


14

Часто вступні тексти прикладної статистики відрізняють середнє значення від медіани (часто в контексті описової статистики та мотивуючи узагальнення центральної тенденції за допомогою середнього, медіанного та режиму), пояснюючи, що середнє значення чутливе до людей, що випадають у даних вибірки та / або до косого розподілу населення, і це використовується як обґрунтування твердження, що медіану слід віддати перевагу, коли дані не симетричні.

Наприклад:

Найкращий показник центральної тенденції для даного набору даних часто залежить від способу розподілу значень .... Коли дані не симетричні, медіана часто є найкращим показником центральної тенденції. Оскільки середнє значення чутливе до екстремальних спостережень, воно потягується у напрямку до значень зовнішніх даних, і в результаті може закінчитися надмірно завищеним або надмірно спущеним. "
—Пагано і Говрео, (2000) Принципи біостатистики , 2-е видання. (P&G були під рукою, BTW, не виділяючи їх самі по собі .)

Автори визначають таким чином "центральну тенденцію": "Найбільш часто досліджуваною характеристикою набору даних є його центр, або точка, щодо якої спостереження мають тенденцію до кластеризації".

Це вражає мене як менш прямий спосіб сказати, що використовуйте лише медіану, період , тому що використовувати лише середнє значення, коли дані / розподіли є симетричними - це те саме, що говорити, що використовувати лише середнє значення, коли воно дорівнює медіані. Редагувати: whuber справедливо вказує, що я пов'язую стійкі заходи центральної тенденції з медіаною. Тому важливо пам’ятати, що я обговорюю специфічне обрамлення середньої арифметичної та середньої медіани у вступній прикладній статистиці (де, окрім іншого, інші заходи центральної тенденції не мотивовані).

Замість того, щоб судити про корисність середнього за тим, наскільки воно відхиляється від поведінки медіани, ми повинні не просто розуміти це як дві різні міри центральності? Іншими словами, чутливість до косості є особливістю середнього. Можна так само справедливо стверджувати, що "добре, що медіана не є доброю, оскільки вона значною мірою нечутлива до косості, тому використовуйте її лише тоді, коли вона дорівнює середній".

(Режим досить розумно не втягується в це питання.)


3
Особисто мені подобається включати обидва заходи, середні та медіанні, які дадуть читачеві не лише певну інформацію про центральну тенденцію, а й уявлення про те, наскільки перекошені дані.
бдеонович

1
Деякий контекст та уточнення покращили б це питання. (1) У якому контексті ці (гіпотетичні) вступні тексти стверджують, що середню перевагу слід використовувати і з якою метою? (2) Як саме ці тексти "судять про корисність середини наскільки вона відходить від поведінки медіани"? Чи можете ви надати приклад чи пропозицію, щоб ми могли краще зрозуміти?
whuber

2
В один момент ви неправильно трактуєте: медіана - не єдина статистика, яка є надійною для кількох екстремальних спостережень. Таким чином, середнє значення позначається на основі (часто) небажаної характеристики, а не за допомогою порівняння з медіаною. Але я також отримую проблиск вашої стурбованості, і, можливо, це пов’язано з неявним плутанням асиметрії та існуванням людей, що перебувають у цій цитаті. Це, на жаль, непридумано, оскільки, маючи, що колись інше, передбачає асиметрію, зворотне не часто відповідає дійсності.
whuber


2
Зважаючи на визначення, яке дається для "центральної тенденції", видається зрозумілим, чому середній спосіб не буде корисним заходом у присутності перекосів або інших людей. Невже ви хочете оцінити це поняття центральної тенденції чи ні, це вже інша справа!
jsk

Відповіді:


16

Я не погоджуюсь із порадою як єдине правило. (Це не для всіх книг.)

Питання більш тонкі.

Якщо ви насправді зацікавлені в тому, щоб зробити висновок про середню сукупність, середня вибірка є принаймні неупередженою оцінкою і має ряд інших переваг. Справді, бачити теорему Гаусса-Маркова - це найкраще лінійно неупереджено.

Якщо ваші змінні сильно перекошені, проблема виникає з "лінійним" - в деяких ситуаціях всі лінійні оцінки можуть бути поганими, тому найкращі з них все-таки можуть бути непривабливими, тож оцінка середнього значення, яка не є лінійною, може бути кращою , але знадобиться щось знати (або навіть досить багато) про розповсюдження. У нас не завжди така розкіш.

Якщо ви не обов'язково цікавитесь висновками, що стосуються популяційного значення (" який типовий вік? "), Скажіть, чи є більш загальний зсув місцеположення від однієї сукупності до іншої, що може бути сформульовано у будь-якому місці чи навіть тест однієї змінної, що стохастично більший за інший), а потім вважає, що середня сукупність або не є необхідною, або ймовірно контрпродуктивною (в останньому випадку).

Тому я думаю, що зводиться до думки про:

  • які ваші фактичні запитання? Чи означає серед населення навіть добре, про що варто запитати у цій ситуації?

  • який найкращий спосіб відповісти на запитання з огляду на ситуацію (хиткість у даному випадку)? Чи використання зразка означає найкращий підхід до відповіді на наші питання, що цікавлять?

Можливо, у вас виникають запитання не безпосередньо щодо засобів популяції, але, тим не менш, вибіркові засоби - це хороший спосіб розглянути ці питання ... або навпаки - питання може бути про засоби популяції, але вибіркові засоби можуть бути не найкращим способом відповісти на це питання.


14

У реальному житті нам слід вибирати міру центральної тенденції, виходячи з того, що ми намагаємось з’ясувати; і так, іноді режим є правильним для використання. Іноді це середня кількість виграшених чи підстрижених. Іноді середнє геометричне або гармонічне. Іноді немає хорошої міри центральної тенденції.

Вступні книги написані погано, вони вчать, що існують правила кулінарної книги.

Візьміть дохід. Це часто дуже перекошене і іноді має пережиті; Звичайно, ми зазвичай бачимо "середній дохід". Але іноді важливими є виснаження та косоокість. Це залежить від контексту і вимагає думки.

Я написав більше про це


2
Петро, ​​дуже дякую за посилання на твій пост. Я хотів би, щоб вступні тексти займали від 1 до 2 сторінок простору, необхідного для того, щоб настільки ж продумано розглянути, як ви надали там.
Олексій

4
Я не написав жодного, але хочу вставити невеликий захист вступних текстів. Будь-який вступний текст, який намагався надати повний нюанс, який досвідчені професіонали визнають таким, був би спалахнутий майже всіма призначеними одержувачами; насправді він навіть не був би опублікований.
Нік Кокс

5
Змістовний коментар: коли значення є такими, що підсумки складають (наприклад, фізичний) сенс, середнє значення є природним підсумком незалежно від розподілу окремих значень.
Нік Кокс

3
@ NickCox Я думаю, що вступні тексти можуть зробити набагато краще, ніж вони. Для середніх проти медіани це навіть не математичний аргумент - це предметний. Вступні тексти повинні сказати людині, яка їх читає, що вони насправді не мають кваліфікації для аналізу даних.
Пітер Флом - Відновіть Моніку

2
@jsk. О, добре. Я думаю, що їх потрібно чітко розповісти в статистиці, оскільки багато людей, здається, думають, що готові після одного курсу аналізу даних; Дійсно, у багатьох галузях (психологія, соціологія, медицина тощо) очікується, що люди будуть робити аналіз даних лише після 1, 2, а іноді і 3 курсу. Наприклад, у докторських програмах очікується написання дисертацій. Чому це очевидніше в інших сферах? Я не впевнений.
Пітер Флом - Відновіть Моніку

6

Навіть коли дані перекошені (наприклад, витрати на охорону здоров'я, розраховані поряд з клінічним випробуванням, де мало пацієнтів становило нульову вартість, оскільки вони помирають відразу після зарахування, а мало пацієнтів нараховували тонни витрат через побічні ефекти даної програми охорони здоров’я, що досліджується ), середня може бути віддана перевагу медіані принаймні з однієї практичної причини: примноження середньої вартості на кількість пацієнтів надає особам, які приймають рішення в галузі охорони здоров'я, бюджетним наслідком досліджуваної технології охорони здоров'я.


Повторний коментар Карло: якщо вас цікавить загальна кількість населення (наприклад, вибіркова перевірка), то вас цікавить середній період. Якщо не має значення, наскільки перекручений або схильний до зовнішнього вигляду розподіл, вам просто доведеться зіткнутися з цим. Ви не можете виграти розмір, обрізати, інакше видалити інші люди або трансформувати журнал. Стратифікація може сильно допомогти; у випадку з крайніми людьми, вони повинні бути зроблені як прошарки для себе.
Пітер Вестпад

3

Я думаю, що цього питання не вистачає, як і обох відповідей, це те, що обговорення значення середнього та середнього у вступних книгах зі статистикою, як правило, відбувається на початку розділу про те, як чисельно підсумувати розподіл. На відміну від інфекційної статистики, це, як правило, стосується створення описової статистики, яка була б корисним способом передати інформацію про розподіл даних чисельно, а не графічно. Контексти, в яких це виникає, це розділ описової статистики звіту чи статті журналу, в якому загалом немає місця для графічних резюме всіх змінних у вашому наборі даних. Якщо розподіл перекошене, в цьому контексті видається розумним вибрати медіану над середнім. Якщо розподіл симетричний без залишків,


1
Ваша думка щодо описової та інфекційної статистики варта. Але ви ефективно говорите (для описової статистики) "використовуйте середнє значення лише тоді, коли воно є таким, як медіана". Якщо розподіл перекошений, то медіана робить погану роботу із представлення поняття на душу населення , правда? Тож чи не так справедливо займати позицію "використовувати медіану лише тоді, коли вона дорівнює середній?" Це так само довільно, і, здається, спрямовує увагу від змістовного значення цих заходів (для людей, які їх вивчають).
Олексій

1
Мета - не представляти поняття на душу населення? Хто каже? Чому припускають, що це не мета?
Олексій

1
Я не бачу хамства чи "шокованого дії", що йде з ОП ... просто кажу ...
Nick Stauner

1
Я не бачу, що це має значення, чи ведете ви в цій справі інфекційну чи описову статистику. Якщо медіаною є відповідна описова міра центральної тенденції, то слід робити висновки про медіану; якщо середнє, то середнє. Якщо жодна описова міра не має сенсу, то жодна заразна міра також не матиме сенсу.
Пітер Флом - Відновіть Моніку

1
@PeterFlom Що робити у випадках, коли кінцевою метою не є висновок? Я згоден, що відповідність описової статистики повністю залежить від причини створення статистики. Ідея, що можливо, що "жоден описовий захід не має сенсу", мабуть, означає, що описова статистика не може бути по суті значимою. Я заперечую, що майже у всіх випадках медіана має сенс як міра центру розподілу за визначенням. Чи має це сенс для інших цілей - це інше питання.
jsk
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.