Як оцінити скосистість від коробки?


19

Як визначити скасованість, подивившись на побудовану з цих даних коробку:

340, 300, 520, 340, 320, 290, 260, 330

В одній книзі сказано: "Якщо нижній квартал знаходиться далі від медіани, ніж верхній квартал, то розподіл негативно перекошений". Кілька інших джерел сказали більш-менш те саме.

Я побудував боксер за допомогою Р. Це так:

коробка-сюжет

Я вважаю, що він негативно перекошений , тому що нижній квартал знаходиться далі від медіани, ніж верхній квартиль. Але проблема полягає в тому, коли я використовую інший метод визначення косості:

середня (337,5)> медіана (325)

Це вказує на те, що дані позитивно перекошені . Я щось пропустив?

Відповіді:


19

Одна міра косоокості базується на середній середній - другому коефіцієнті косості Пірсона .

Інша міра косоокості базується на відносних четвертильних відмінностях (Q3-Q2) проти (Q2-Q1), виражених у співвідношенні

у=0,25

Звичайно, найпоширеніший захід - це косоокість третього моменту .

Немає причин, що ці три заходи обов'язково будуть узгодженими. Будь-яка з них може відрізнятися від двох інших.

Те, що ми розглядаємо як «косоокість», - це дещо слизька і нечітко визначена концепція. Дивіться тут для більш детальної дискусії.

Якщо ми подивимось на ваші дані звичайним qqplot:

введіть тут опис зображення

[Позначений там рядок базується лише на перших 6 пунктах, тому що я хочу обговорити відхилення останніх двох від шаблону.]

Ми бачимо, що найменші 6 балів лежать майже ідеально на лінії.

Тоді 7-а точка знаходиться нижче лінії (ближче до середини відносно відповідної другої точки з лівого кінця), тоді як восьма точка розташовується вище.

7-а точка передбачає м'який лівий косий, останній, сильніший правий перекос. Якщо ігнорувати будь-яку точку, враження косості повністю визначається іншим.

Якби я мав сказати, що це те чи інше, я б назвав це "правильним перекосом", але я також зазначив, що таке враження було повністю пов'язане з ефектом цієї дуже великої точки. Без нього насправді нічого не можна сказати, що це правильний перекіс. (З іншого боку, без 7-го пункту замість цього явно не залишається перекос.)

Ми повинні бути дуже обережними, коли наше враження цілком визначається окремими точками, і їх можна перевернути, видаливши одну точку. Це не велика основа для продовження!


Я починаю з припущення, що те, що робить «зовнішнім» зовнішній вигляд, - це модель (те, що зовнішнє відношення до однієї моделі може бути досить типовим для іншої моделі).

Я думаю, що спостереження у верхньому перцентилеті 0,01 (1/10000) від норми (3,72 сд вище середнього) є рівною мірою вищою за звичайну модель, як спостереження у верхньому перцентилеті 0,01 експоненціального розподілу до експоненціальної моделі. (Якщо ми перетворимо розподіл за власним інтегральним перетворенням ймовірності, кожне перейде до однієї і тієї ж рівномірної)

Щоб побачити проблему із застосуванням правила boxplot до навіть середньо правого розподілу перекосів, моделюйте великі зразки з експоненціального розподілу.

Наприклад, якщо ми моделюємо зразки розміром 100 від норми, ми в середньому менше одного вибірка на зразок. Якщо ми робимо це з експоненціалом, то в середньому ми складаємо близько 5. Але немає реальної основи, на якій можна сказати, що більша частка експоненціальних значень "відхиляється", якщо ми не зробимо це порівнянням із (скажімо) нормальною моделлю. У конкретних ситуаціях у нас можуть бути конкретні причини, щоб мати правило поза певної форми, але немає жодного загального правила, яке б залишало нас загальними принципами, такими, як я почав у цьому підрозділі, - обробляти кожну модель / розповсюдження на власних вогнях (якщо значення не є незвичайним щодо моделі, то навіщо називати його в цій ситуації більш чужим?)


Щоб звернутися до питання в заголовку :

Хоча це досить сирий інструмент (саме тому я подивився на QQ-сюжет), є декілька ознак косості в коробці - якщо принаймні одна точка позначена як стороння, потенційно (принаймні) три:

введіть тут опис зображення

У цьому зразку (n = 100) зовнішні точки (зелені) позначають крайності, а з медіаною підказують ліву косий вигляд. Тоді огорожі (сині) підказують (у поєднанні з медіаною) підказують правильну косисть. Тоді петлі (чотирикутні, коричневі) підказують ліву косостість у поєднанні з медіаною.

Як бачимо, вони не повинні бути послідовними. На чому б ви зосередилися, залежить від ситуації, в якій ви перебуваєте (та, можливо, від ваших уподобань).

Однак попередження про те, наскільки сильною є боксер. Приклад до кінця тут - який включає опис того, як генерувати дані - дає чотири досить різні розподіли з однаковим boxplot:

введіть тут опис зображення

Як бачите, існує досить перекошений розподіл з усіма згаданими вище показниками косості, що демонструє ідеальну симетрію.

-

Давайте розглянемо це з точки зору "на яку відповідь очікував ваш вчитель, враховуючи, що це боксер, який позначає один бал як чужий?".

Нам залишається відповісти спочатку: "Чи очікують вони від вас, щоб ви оцінили косисть, виключаючи цю точку, або з урахуванням цього зразка?". Деякі виключали б це і оцінювали перекрученість із того, що залишається, як jsk зробив в іншій відповіді. Хоча я заперечував аспекти такого підходу, я не можу сказати, що це неправильно - це залежить від ситуації. Деякі з них включатимуть її (не в останню чергу тому, що виключення 12,5% вашого зразка через правило, похідне від нормальності, здається великим кроком *).

* Уявіть, що розподіл популяції є симетричним, за винятком крайнього правого хвоста (я створив таке, відповідаючи на це - нормально, але з крайнім правим хвостом Парето - але в своїй відповіді не представив його). Якщо я малюю зразки розміром 8, часто 7 спостережень надходять із нормальної частини, а одна - з верхнього хвоста. Якщо в цьому випадку виключаємо точки, позначені як боксер-outliers, ми виключаємо точку, яка говорить нам, що це насправді перекос! Коли ми це робимо, усічений розподіл, що залишається в цій ситуації, залишається перекошеним, і наш висновок був би протилежним правильному.


1
@jsk Це залежить від того, як ви хочете виміряти нахил. Оскільки ступінь косості частково визначається відстороненими точками (тенденція бути більш відхиленою в одному напрямку, ніж інша), видалення їх, безсумнівно, пропускає точку вимірювання косості. Більш детальне обговорення та аналіз - у моєму оновленому дописі. Якщо ви не переконані, будь ласка, не погоджуйтесь, такі обміни часто є цінними.
Glen_b -Встановіть Моніку

1
@Glen_b Хоча я, безумовно, поважаю і розумію позицію, яку ви займаєте, я вважаю, що слід зробити розумний аргумент для того, щоб оцінити перекос після вилучення чужака на противагу раніше. Після вилучення зовнішньої форми розподіл навіть буде негативно перекошений після зняття 7-ї точки (260). Ви перевіряли qqplot та / або порівнювали середнє та медіанне?
jsk

1
Можливо, справа є досить слабкою після зняття 7-ої, але я не бачу причин виправдовувати судження про перекос після його видалення. Це не чуже, хоча справа сприйнята в тому, що заходи перекосу, як би ви не дивилися на них у цьому випадку, рухаються одиничними пунктами.
jsk

1
@Glen_ b Q3 + 1.5IQR - типове правило, що вивчається на цьому рівні для виявлення людей, що переживають верхній хвіст. Видаляти їх чи ні - інша справа. Ви стверджуєте, що розподіл правильно перекошений, оскільки середня величина більша? Чому ігнорувати той факт, що Q1 знаходиться далі від Q2, ніж Q3?
jsk

1
Я хочу пояснити, що тут знаходиться поблизу поверхні, але не зовсім: часто боксерські ущільнювачі занадто сильно конденсуються, тому вам може знадобитися також переглянути всі дані.
Нік Кокс

11

Ні, ви нічого не пропустили: ви насправді бачите поза спрощеними резюме, які були представлені. Ці дані є як позитивно, так і негативно перекошеними (у значенні "косості", що говорить про певну форму асиметрії в розподілі даних).

Джон Тукі описав систематичний спосіб дослідження асиметрії в групах даних за допомогою свого "резюме N-номерів". Боксплот - це графіка з підсумками 5-ти чисел, і таким чином піддається цьому аналізу.


МН+Н-Х+Х-Тi+iТi+Тi-М=М+=М-(Тi++Тi-)/2i

Щоб застосувати цю ідею до коробки, просто намалюйте середини кожної пари відповідних частин: медіану (яка вже є), середину петель (кінці коробки, показані синім кольором) та середину крайностей (показано червоним кольором).

Boxplot

У цьому прикладі нижнє значення середнього шарніра порівняно з медіаною вказує, що середина партії злегка негативно перекошена (тим самим підтверджуючи оцінку, наведену у запитанні, в той же час відповідним чином обмежуючи сферу її застосування до середини партії ) в той час, як (набагато) вище значення середньої крайності вказує, що хвости партії (або, принаймні, її крайності) позитивно перекошені (хоча при більш уважному огляді це пов’язано з однією високою стороною). Хоча це майже тривіальний приклад, відносне багатство цієї інтерпретації порівняно з єдиною статистикою «косості» вже виявляє описову силу цього підходу.

З невеликою кількістю практики вам не доведеться складати ці середні статистичні дані: ви можете уявити, де вони знаходяться, і читати отриману інформацію про косості безпосередньо з будь-якої скриньки.


МНЕDХi=1,2,3,4,5. Ділянка зліва на наступному малюнку - це діагностичний графік для середини цих парних статистичних даних. Зі схилу, що прискорюється, зрозуміло, що дані стають все більш позитивними, коли ми проникаємо в їхні хвости.

Малюнок 2

Середній і правий графіки показують те ж саме для квадратних коренів ( даних, а не статистики середнього числа!) Та логарифмів (base-10). Відносна стійкість значень коренів (зауважте відносний невеликий вертикальний діапазон та рівень, нахилений посередині) вказує на те, що ця партія з 219 значень стає приблизно симетричною як у середніх її частинах, так і в усіх частинах хвостів, майже до крайності, коли висоти повторно виражаються у вигляді квадратних коренів. Цей результат є сильною - майже переконливою основою для подальшого аналізу цих висот з точки зору їх квадратних коренів.

Крім усього іншого, ці сюжети виявляють щось кількісне щодо асиметрії даних: у початковому масштабі вони негайно виявляють різну перекошеність даних (ставлячи значні сумніви у корисності використання єдиної статистики для характеристики її спотвореності), тоді як на у квадратній кореневій шкалі дані близькі до симетричних щодо їх середини - і тому їх можна коротко узагальнити підсумком п’яти чисел або рівнозначно коробкою. Косисть знову помітно змінюється в масштабі журналу, показуючи, що логарифм є занадто "сильним" способом повторного вираження цих даних.

Узагальнення випусків на семи-, дев'яти- і більше числових підсумків просто зробити. Тукай називає їх «схематичними сюжетами». Сьогодні багато сюжетів служать подібній меті, включаючи очікування на зразок сюжетів QQ та відносні новинки, такі як "бобові сюжети" та "сюжетні скрипки". (Для цього можна навіть натиснути на гістограму з низьким рівнем використання.) Використовуючи точки з таких графіків, можна детально оцінити асиметрію та здійснити аналогічну оцінку способів повторного вираження даних.


7

Середнє значення, що є меншим або більшим за медіану, - це ярлик, який часто працює для визначення напрямку перекосу, доки не існує сторонніх. У цьому випадку розподіл негативно перекошений, але середня величина більша за медіану за рахунок випередження.


Це пояснює. Книги, які я читав, зовсім не згадували про це!
JerryW

Сподіваємось, книги принаймні згадували про те, як середнє набагато менш стійке до людей, що виживають, ніж медіана!
jsk

Чи вважатиметься це негативно перекошеним, залежить від того, як ви вимірюєте скосистість.
Glen_b -Встановіть Моніку

Справедливо. Це невеликий набір даних, що робить особливо складним судити про нескінченність. Я б припустив, що цей приклад, на жаль, кинуто туди лише з причини суперечливих правил визначення косого
jsk

1
Я погоджуюся, що такі невеликі набори даних можуть зробити це складним, але цілком можливо побудувати безперервні дистрибутиви, які однаково складні.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.