Як визначити, чи мій розподіл даних симетричний?


23

Я знаю, що якщо медіана і середня величина приблизно рівні, то це означає, що існує симетричне розподіл, але в цьому конкретному випадку я не впевнений. Середня та медіана досить близькі (лише 0,487 м / різниця в жовчі), що призведе до того, що я можу сказати, що існує симетричний розподіл, але дивлячись на боксер, це схоже на те, що він трохи позитивно перекошений (медіана ближче до Q1, ніж Q3, як підтверджено за значеннями).

(Я використовую Minitab, якщо у вас є якісь конкретні поради щодо цього програмного забезпечення.)


Ортогональний коментар до деталі: які одиниці є м / жовч? Це схоже на метри на галон, і я заінтригований.
Нік Кокс

Тут серйозне обмеження в тому, що сюжетні коробки зазвичай взагалі не показують засоби!
Нік Кокс

Що це за стандартне відхилення ваших даних? Якщо значення 0,487 м / галло набагато менше вашого стандартного відхилення, то, ймовірно, у вас є підстави вважати, що розподіл може бути симетричним. Якщо це значення набагато більше, ніж ваше стандартне відхилення (або MAD або будь-який показник відхилення, на який ви дивитесь), ймовірно, вивчення симетрії розподілу далі - це втрата часу.
usεr11852 повідомляє Відновити Моніку

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100 є навмисно не симетричний (рівномірний у нижній половині, але не у верхній половині), а графічний ящик поставив би медіану (рівну середній) ближче до верхнього кватилію, ніж нижній квартал, але й ближче до мінімуму, ніж максимум.
Генрі

@NickCox це також може бути Мілліган з помилкою. Це було б майже 500 мюль! Або менше г. (Звичайно, як зазначалося вище, без певної шкали дисперсії, наприклад, MAD, не можна знати, що може бути "значним".)10 - 4μ104
GeoMatt22

Відповіді:


29

Без сумніву, вам сказали інакше, але середня медіана не означає симетрію.=

Існує міра косості, заснована на середній мінус-медіані (друга косостість Пірсона), але вона може бути 0, коли розподіл не симетричний (як і будь-який із поширених заходів косості).

Аналогічно, відношення між середньою і медіаною не обов'язково означає подібне співвідношення між медіацією ( ) та медіаною. Вони можуть запропонувати протилежну похилість, або одна може дорівнювати медіані, а інша - ні.(Q1+Q3)/2

Один із способів дослідження симетрії - через графік симетрії *.

Якщо є впорядкованими спостереженнями від найменшого до найбільшого (статистика порядку), а - медіана, то сюжетні графіки симетрії проти , проти , ... і так далі. M Y ( n ) - M M - Y ( 1 ) Y ( n - 1 ) - M M - Y ( 2 )Y(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MMY(2)

* Minitab може це зробити . Справді, я піднімаю цей сюжет як можливість, тому що бачив, як вони робили в Minitab.

Ось чотири приклади:

Symmetry plots
Діаграми симетрії вищезазначеного типу для зразків з чотирьох розподілів

(Дійсні розподіли були (зліва направо, перший верхній рядок) - Лаплас, Гамма (форма = 0,8), бета (2,2) та бета (5,2). Код - Росс Іхака, звідси )

У симетричних прикладах з важкими хвостами часто трапляється так, що самі крайні точки можуть бути дуже далеко від лінії; ви б приділяли менше уваги відстані від лінії однієї або двох точок, коли ви знаходитесь біля правої верхньої частини фігури.

Звичайно, є й інші сюжети (я згадував сюжет симетрії не з особливого почуття пропаганди саме цього, а тому, що знав, що це вже реалізовано в Minitab). Тож давайте вивчимо деякі інші.

Ось відповідні ескізи, які Нік Кокс запропонував у коментарях:

Skewness plots
Сюжетні сюжети, як запропонував Нік Кокс у коментарях

У цих сюжетах тенденція вгору вказуватиме на типово важчий правий хвіст, ніж лівий, а тенденція вниз означатиме типово важчий лівий хвіст, ніж правий, тоді як симетрія буде запропонована порівняно плоским (хоча, можливо, досить галасливим) сюжетом.

Нік припускає, що цей сюжет кращий (конкретно "більш прямий"). Я схильний погодитися; інтерпретація сюжету, отже, здається трохи легшою, хоча інформація на відповідних сюжетах часто є досить схожою (після того, як ви віднімаєте нахил одиниці у першому наборі, ви отримуєте щось дуже схоже на другий набір).

[Звичайно, жодне з цих речей не скаже нам, що розподіл даних, з яких були отримані, є насправді симетричним; ми отримуємо вказівку на те, наскільки близька до симетричної вибірка, і тому в цій мірі ми можемо судити про те, чи дані цілком відповідають результатам, отриманим з майже симетричної сукупності.]


3
@ user72943 Якщо ви цим повністю задоволені, не забудьте повернутися і вибрати відповідь Glen_b. Ви можете зачекати трохи часу, щоб побачити, чи хтось подасть кращу відповідь, але Glen_b отримає більше кредиту, якщо ви приймете відповідь.
Уейн

3
+1, але суперечка. Я вважаю сюжет (верхній квантиль нижній квантиль) / 2 проти (верхній квантиль нижній квантиль) більш прямий, ніж сюжет симетрії. Для кількісного читання статистику порядку читання, якщо це бажано. Референтна ситуація - це симетричний розподіл, при якому середні середні парні кванти дорівнюють медіані, тому симетричний розподіл побудований як пряма лінія. Легку і помітну асиметрію легко помітити, як і (наприклад) приблизна симетрія посередині та помічені винятки в одному або обох хвостах. -+
Нік Кокс

6
+1 У програмі EDA Джон Тукі просто розміщує послідовність середніх частот. Це значення для ретельно вибраної послідовності індексів (наближаючи тощо) ). Деяким чином цей сюжет кращий, ніж сюжети симетрії, наскільки він фільтрує зайву деталь і допомагає глядачеві зосередитись на тому, як симетрія (або її відсутність) змінюється, коли людина рухається в хвіст. Це має додаткову перевагу, що миттєво і легко піддаються обчисленню, коли в руці є підсумок n-літер, який, у свою чергу, можна прочитати безпосередньо зі стовбурових сюжетів. i n / 2 , n / 4 , n / 8(Y(n+1i)+Y(i))/2in/2,n/4,n/8
whuber

1
@whuber і я говоримо про одну і ту ж основну ідею. Різниця полягає в графічному оформленні всієї парної статистики замовлень (на практиці не дуже відволікаючої) або побудові лише деяких.
Нік Кокс

1
Посилання в stata-journal.com/sjpdf.html?articlenum=gr0003 та для користувачів Stata в документації на skewplot(SSC). Ідея, щонайменше, повертається до пропозиції, приписаної Дж. В. Тукі в Вілк, М. Б. та Гнанадесікан, Р. 1968. Вірогідні побудови методів аналізу даних. Біометріка 55: 1-17.
Нік Кокс

6

Найпростіше - обчислити косий зразок . Для цього є функція Minitab. Симетричні розподіли матимуть нульовий нахил. Нульова косоокість не обов'язково означає симетричну, але в більшості практичних випадків це було б.

Як зазначав @NickCox, існує більш ніж одне визначення косості. Я використовую той, який сумісний з Excel , але ви можете використовувати будь-який інший.


2
Я думаю, що це потребує конкретизації. Зокрема, немає такого поняття, як "косоокість". Існує безліч заходів і навіть нечасті часто такі ж корисні або цікаві, як і звичайні (наприклад, L-моменти). Ті спокусі щодо стандартизований третього моменту , як в міру (і це мій по замовчуванням, теж) слід зазначити , що для Карла Пірсона, і для багатьох інших авторів і в 20 століття, перекіс найчастіше вимірюється по відношенню до режиму.
Нік Кокс

Будь-який коефіцієнт перекосу, окрім того, що не вистачає великої потужності для виявлення асиметрій (як ви правильно зауважуєте), також страждає від того, що він є (надзвичайно) ненадійним, оскільки він заснований на третьому моменті вибірки. Крім того, оскільки симетрію можна порушувати багатьма (і цікавими) способами, одна чисельна характеристика симетрії є поганою заміною багатшій графічній діагностиці, описаній у дослідницькій літературі з аналізу даних.
whuber

1

Відцентруйте свої дані навколо нуля, віднімаючи середню вибірку. Тепер розділіть свої дані на дві частини - негативну та позитивну. Візьміть абсолютне значення від’ємних балів даних. Тепер зробіть тест Колмогорова-Смірнова на двох зразках, порівнявши дві перегородки між собою. Зробіть свій висновок на основі p-значення.


0

Помістіть свої спостереження, відсортовані за збільшенням значень, в один стовпчик, а потім поставте їх відсортованими за зменшенням значень в інший стовпчик.
Потім обчисліть коефіцієнт кореляції (назвіть його Rm) між цими двома стовпцями.
Обчисліть хіральний індекс: CHI = (1 + Rm) / 2.
ІСН приймає значення в інтервалі [0..1].
ЧІ є нульовим, АБО ТАКОЖ, якщо ваш зразок розподілений симетрично.
Не потрібно третього моменту.
Теорія:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(більшість цитовані в цих двох сторінках є завантажуються в форматі PDF)
Hope це допомагає навіть останнім часом.


Чи не буде кореляція, Rm, обов'язково негативною? Я не бачу, як CHI може бути 1, якщо Rm не дорівнював 1, але оскільки col1 відсортовано збільшується, а col2 відсортовано зменшується, RM <= 0, тобто CHI прийме значення у [0, .5]. Я щось пропускаю?
gung - Відновіть Моніку

Так, Rm не може бути позитивним і CHI не може перевищувати 1/2 для розподілу випадкових величин, що приймають значення на дійсну пряму. Насправді верхня межа 1 походить від загальної теорії, що вводить хіральний індекс. Це має сенс для розподілу випадкових змінних, що приймають значення в більш загальному просторі. Ця теорія виходить за межі цієї дискусії, але вона представлена ​​на двох веб-сторінках, про які я згадував раніше.
Petitjean

Зареєструйте та / або з’єднайте свої акаунти (інформацію про те, як це зробити, ви можете знайти в розділі " Мій обліковий запис " нашого довідкового центру ), тоді ви зможете редагувати та коментувати власне запитання.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.