Одна міра косоокості базується на середній середній - другому коефіцієнті косості Пірсона .
Інша міра косоокості базується на відносних четвертильних відмінностях (Q3-Q2) проти (Q2-Q1), виражених у співвідношенні
u = 0,25
Звичайно, найпоширеніший захід - це косоокість третього моменту .
Немає причин, що ці три заходи обов'язково будуть узгодженими. Будь-яка з них може відрізнятися від двох інших.
Те, що ми розглядаємо як «косоокість», - це дещо слизька і нечітко визначена концепція. Дивіться тут для більш детальної дискусії.
Якщо ми подивимось на ваші дані звичайним qqplot:
[Позначений там рядок базується лише на перших 6 пунктах, тому що я хочу обговорити відхилення останніх двох від шаблону.]
Ми бачимо, що найменші 6 балів лежать майже ідеально на лінії.
Тоді 7-а точка знаходиться нижче лінії (ближче до середини відносно відповідної другої точки з лівого кінця), тоді як восьма точка розташовується вище.
7-а точка передбачає м'який лівий косий, останній, сильніший правий перекос. Якщо ігнорувати будь-яку точку, враження косості повністю визначається іншим.
Якби я мав сказати, що це те чи інше, я б назвав це "правильним перекосом", але я також зазначив, що таке враження було повністю пов'язане з ефектом цієї дуже великої точки. Без нього насправді нічого не можна сказати, що це правильний перекіс. (З іншого боку, без 7-го пункту замість цього явно не залишається перекос.)
Ми повинні бути дуже обережними, коли наше враження цілком визначається окремими точками, і їх можна перевернути, видаливши одну точку. Це не велика основа для продовження!
Я починаю з припущення, що те, що робить «зовнішнім» зовнішній вигляд, - це модель (те, що зовнішнє відношення до однієї моделі може бути досить типовим для іншої моделі).
Я думаю, що спостереження у верхньому перцентилеті 0,01 (1/10000) від норми (3,72 сд вище середнього) є рівною мірою вищою за звичайну модель, як спостереження у верхньому перцентилеті 0,01 експоненціального розподілу до експоненціальної моделі. (Якщо ми перетворимо розподіл за власним інтегральним перетворенням ймовірності, кожне перейде до однієї і тієї ж рівномірної)
Щоб побачити проблему із застосуванням правила boxplot до навіть середньо правого розподілу перекосів, моделюйте великі зразки з експоненціального розподілу.
Наприклад, якщо ми моделюємо зразки розміром 100 від норми, ми в середньому менше одного вибірка на зразок. Якщо ми робимо це з експоненціалом, то в середньому ми складаємо близько 5. Але немає реальної основи, на якій можна сказати, що більша частка експоненціальних значень "відхиляється", якщо ми не зробимо це порівнянням із (скажімо) нормальною моделлю. У конкретних ситуаціях у нас можуть бути конкретні причини, щоб мати правило поза певної форми, але немає жодного загального правила, яке б залишало нас загальними принципами, такими, як я почав у цьому підрозділі, - обробляти кожну модель / розповсюдження на власних вогнях (якщо значення не є незвичайним щодо моделі, то навіщо називати його в цій ситуації більш чужим?)
Щоб звернутися до питання в заголовку :
Хоча це досить сирий інструмент (саме тому я подивився на QQ-сюжет), є декілька ознак косості в коробці - якщо принаймні одна точка позначена як стороння, потенційно (принаймні) три:
У цьому зразку (n = 100) зовнішні точки (зелені) позначають крайності, а з медіаною підказують ліву косий вигляд. Тоді огорожі (сині) підказують (у поєднанні з медіаною) підказують правильну косисть. Тоді петлі (чотирикутні, коричневі) підказують ліву косостість у поєднанні з медіаною.
Як бачимо, вони не повинні бути послідовними. На чому б ви зосередилися, залежить від ситуації, в якій ви перебуваєте (та, можливо, від ваших уподобань).
Однак попередження про те, наскільки сильною є боксер. Приклад до кінця тут - який включає опис того, як генерувати дані - дає чотири досить різні розподіли з однаковим boxplot:
Як бачите, існує досить перекошений розподіл з усіма згаданими вище показниками косості, що демонструє ідеальну симетрію.
-
Давайте розглянемо це з точки зору "на яку відповідь очікував ваш вчитель, враховуючи, що це боксер, який позначає один бал як чужий?".
Нам залишається відповісти спочатку: "Чи очікують вони від вас, щоб ви оцінили косисть, виключаючи цю точку, або з урахуванням цього зразка?". Деякі виключали б це і оцінювали перекрученість із того, що залишається, як jsk зробив в іншій відповіді. Хоча я заперечував аспекти такого підходу, я не можу сказати, що це неправильно - це залежить від ситуації. Деякі з них включатимуть її (не в останню чергу тому, що виключення 12,5% вашого зразка через правило, похідне від нормальності, здається великим кроком *).
* Уявіть, що розподіл популяції є симетричним, за винятком крайнього правого хвоста (я створив таке, відповідаючи на це - нормально, але з крайнім правим хвостом Парето - але в своїй відповіді не представив його). Якщо я малюю зразки розміром 8, часто 7 спостережень надходять із нормальної частини, а одна - з верхнього хвоста. Якщо в цьому випадку виключаємо точки, позначені як боксер-outliers, ми виключаємо точку, яка говорить нам, що це насправді перекос! Коли ми це робимо, усічений розподіл, що залишається в цій ситуації, залишається перекошеним, і наш висновок був би протилежним правильному.