Чи варто вчити куртозу в курсі прикладної статистики? Якщо так, то як?


17

Центральну тенденцію, розповсюдженість та хиткість можна визначити відносно добре, принаймні на інтуїтивній основі; стандартні математичні міри цих речей також відносно добре відповідають нашим інтуїтивним уявленням. Але, здається, куртоз відрізняється. Це дуже заплутано і не відповідає добре інтуїції щодо форми розподілу.

Типовим поясненням куртозу в застосованих умовах буде цей витяг із прикладної статистики для бізнесу та управління за допомогою Microsoft Excel :[1]

Куртоз відноситься до того, наскільки розподіленим є максимальний розподіл або, навпаки, наскільки він плоский. Якщо в хвостах більше значень даних, ніж те, що ви очікуєте від нормального розподілу, куртоз є позитивним. І навпаки, якщо в хвостах є менші значення даних, ніж ви очікували при нормальному розподілі, куртоз негативний. Excel не може обчислити цю статистику, якщо у вас є принаймні чотири значення даних.

Окрім плутанини між "куртозом" та "надлишковим куртозом" (як у цій книзі, звичайне слово використовується колишнє слово для позначення того, що його називають другим автором), тлумачення в термінах "піку" чи "пласкості" потім заплутаний перемиканням уваги на те, скільки елементів є в хвостах. Вважаючи, що "пік" і "хвости" необхідні - Капланський[2]У 1945 році скаржився, що багато підручників того часу помилково заявляли про куртоз, пов'язаний з тим, наскільки високий пік розповсюдження порівняно з нормальним розповсюдженням, не враховуючи хвости. Але чітко враховуючи форму як на вершині, так і на хвостах, інтуїцію важче зрозуміти, точка, яку цитується вище, витягується, перекочуючи перехід від вершини до важкості хвостів, ніби ці поняття однакові.

Більш того, це класичне пояснення куртозу «піку та хвости» добре працює лише для симетричного та унімодального розподілу (дійсно, ілюстровані приклади в цьому тексті всі симетричні). І все ж "правильний" загальний спосіб тлумачення куртозу, будь то "піки", "хвости" чи "плечі", оспорюється десятиліттями . [2][3][4][5][6]

Чи існує інтуїтивно зрозумілий спосіб викладання куртозу в застосованій обстановці, який не вплине на протиріччя чи контрприклади, якщо застосовувати більш суворий підхід? Чи є куртоз взагалі корисною концепцією в контексті подібних курсів прикладного аналізу даних, на відміну від класів математичної статистики? Якщо "пік" розподілу є поняттям, що інтуїтивно корисно, чи слід вчити цього замість L-моментів ?[7]

[1] Геркенхофф, Л. та Фоглі, Дж. (2013). Прикладна статистика для бізнесу та управління за допомогою Microsoft Excel. Нью-Йорк, Нью-Йорк: Спрінгер.

[2] Капланський, І. (1945). "Поширена помилка, що стосується куртозу". Журнал Американської статистичної асоціації , 40 (230): 259.

[3] Дарлінгтон, Річард Б (1970). "Чи справді куртоз" максимум "?". Американський статистик 24 (2): 19–22

[4] Маври, Дж. Дж. (1986) "Значення куртозу: Дарлінгтон переглянуто". Американський статистик 40 (4): 283–284

[5] Balanda, Kevin P. and MacGillivray, HL (1988). " Куртоз: критичний огляд". Американський статистик 42 (2): 111–119

[6] DeCarlo, LT (1997). " Про значення та вживання куртозу ". Психологічні методи , 2 (3), 292. Чикаго

[7] Хоскінг, JRM (1992). "Моменти або L моменти? Приклад порівняння двох мір форми розподілу". Американський статистик 46 (3): 186–189


2
Що ви маєте на увазі під звичайними навчальними програмами? Тобто який рівень освіти.
Гумео

5
Що саме ви вчите про куртоз? Це питання є досить розпливчастим. Будь ласка, заповніть, як це вписується у вашу навчальну програму зараз, і, можливо, деякі інтуїтивні приклади зі стандартних заходів, з якими ви погоджуєтесь, суперечать куртозу.
Іван

3
Я не думаю, що момент вимірювання куртозу насправді сильно відрізняється від перекосу моменту в цьому відношенні. В обох випадках вони насправді не відображають те, що люди думають, що роблять, і обидва вони менш інтуїтивні, ніж історії, які люди розповідають про них. Для кожного дивного контрприкладу, який я маю про куртоз, у мене є ще один про косості. Я б не видалив жоден із них, але я би зменшив акцент на моментних заходах, переміщу їх пізніше і змінять спосіб їх навчання, щоб ми не плутали різні поняття і не пред'являти претензії, які не витримують.
Glen_b -Встановіть Моніку

3
Більша косоокість не означає більш важкого хвоста у напрямку косості. Нульова скутість не означає симетрію (усі непарні моменти, нульові навіть не означають симетрію). Симетрія навіть не передбачає нульової косості. Які інтуїції залишилися?
Glen_b -Встановити Моніку

3
Ось ще одна відповідь з деякою дискусією, яка містить цікавий клас прикладів. Є ще деякі, але я їх зараз не бачу. Деякі дописи whuber також корисні.
Glen_b -Встановіть Моніку

Відповіді:


18

Куртоз насправді досить простий ... і корисний. Це просто міра залишків, або хвостів. Це не має нічого спільного з піком - від цього визначення слід відмовитися.

Ось набір даних:
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Зауважте, що "999" - це чужа людина.

Ось значення з набору даних:z4

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Зауважте, що лише зовнішній вигляд дає який помітно відрізняється від 0.z4

Середнє значення цих значень - це куртоз емпіричного розподілу (відніміть 3, якщо вам подобається, це не має значення для точки, яку я вношу): 18.05z4

З цього розрахунку повинно бути очевидним, що дані біля "піку" (дані, що не є іншими) не майже не сприяють статистиці куртозу.

Куртоз корисний як міра виснажувачів. Випускники важливі для учнів початкових класів, і тому слід навчати куртозу. Але куртоз практично не має нічого спільного з піком, будь то точковий, плоский, бімодальний або нескінченний. Ви можете мати все вищезазначене з малим куртозом і все вищезазначене з великим куртозом. Тож НІКОЛИ не слід представляти як те, що має щось спільне з піком, тому що це буде викладання неправильної інформації. Це також робить матеріал непотрібним заплутаним і, здавалося б, менш корисним.

Підсумок:

  1. куртоз корисний як міра хвостів (віджимань).
  2. куртоз не має нічого спільного з піком.
  3. куртоз практично корисний і його слід навчати, але лише як міру вихованих. Не вказуйте піку при навчанні куртозу.

Ця стаття чітко пояснює, чому визначення "Пік" зараз офіційно мертве.

Westfall, PH (2014). « Куртоз як максимум, 1905 - 2014. РІП » Американський статистик , 68 (3), 191–195.


4
Ласкаво просимо до резюме, я сподіваюся, що ви будете триматися та робити більше внеску в майбутньому Я відредагував вашу публікацію, щоб включити посилання на папір і переформатував деякі математичні позначення, сподіваюся, ви не заперечуєте. (Розміщуючи математику, $наприклад $z^4$, можна використовувати )LАТЕХ
Срібна рибка

6

Хоча питання дещо розпливчасте, воно цікаве. На яких рівнях навчається куртоз? Я пам’ятаю, як згадувалося в (магістерському) курсі лінійних моделей (давно, виходячи з першого видання книги Себера). Це не була важливою темою, але вона входить у такі теми, як вивчення (відсутність) надійності тесту на коефіцієнт ймовірності (F-тест) рівності дисперсій, де (з пам'яті) правильний рівень асимптотично залежить від того ж куртозу, що і нормальний розподіл, який занадто багато припустити! Ми побачили документ (але я його ніколи не читав з деталями) http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents Оя, який намагається з'ясувати, що таке перекос, куртоз та подібні дійсно заходи.

Чому мені це цікаво? Тому що я викладаю в Латинській Америці, де здається, що перекос і куртоз викладаються багатьма важливими темами, і намагаюся сказати аспірантам (багато хто з економіки), що куртоз - це погана міра форми розподілу (головним чином тому що вибіркова мінливість четвертих потужностей просто велика), було складно. Я намагався змусити їх використовувати QQplots замість цього. Отож, дехто з коментаторів так, цьому викладають деякі місця, напевно, багато!

До речі, це не лише моя думка. Наступне повідомлення в блозі https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics містить це цитування (приписується доктору Уілеру):

Коротше кажучи, косоокість і куртоз практично нікчемні. Шевхарт зробив це спостереження у своїй першій книзі. Статистичні дані щодо косості та куртозу просто не дають корисної інформації, крім тієї, що вже надана мірами розташування та розповсюдження.

Ми повинні навчити кращій техніці вивчення форм розподілу! наприклад QQplots (або відносні графіки розподілу). І якщо комусь ще потрібні чисельні заходи, заходи, засновані на L-моментах, є кращими. Я процитую один уривок із статті JR Statist Soc B (1990) 52, No 1, pp. 105--124 JRM Hosking: "L-моменти: аналіз та оцінка розподілу за допомогою лінійної комбінації статистики замовлень", стор. 109:

λ1λ2мк(Ж)12σ1(Ж)τ3τ4

(На даний момент я посилаюсь на документ для визначення цих заходів, всі вони базуються на L-моментах.) Цікавим є те, що традиційна міра куртозу, заснована на четвертих моментах, не є мірою куртозу. в сенсі Оя! (Я відредагую посилання на цю претензію, коли зможу її знайти).


1
Немає проблем із застосуванням графічних та інших методик для розуміння властивостей розподілу, але твердження про те, що "перекос і куртоз практично не варті" є гіперболою. Обидва мають великий вплив на всілякі статистичні умовиводи.
Пітер Вестпад

@ Петер У цьому вислові, мабуть, мався на увазі "емпіричний куртоз".
kjetil b halvorsen

1
Незважаючи на це, емпіричний куртоз говорить про те, коли у вас є проблеми із зовнішністю. Тож я все ще вважаю, що коментар "косоокість і куртоз практично нікчемний" є гіперболою. Звичайно, вони не можуть бути великими оцінками параметрів "популяції", особливо з меншими розмірами вибірки, але "практично нічого не варто" - це розтягнення. Навіть якщо вони не оцінюють параметри сукупності особливо добре, вони все ще надають корисну описову інформацію про існуючий набір даних. Інформація, яка, звичайно, повинна бути доповнена графічними видами, такими як qq-графіки.
Пітер Вестпад

@Peter Westfall: Справжній Q може бути, якщо найкращим заходом є емпіричний куртоз, щоб виявити проблеми, що існують, або якщо є щось краще?
kjetil b halvorsen

Емпіричний куртоз вимірює зовнішній характер набору даних, а не окремих людей. Я б не пішов так далеко, щоб сказати, що куртоз = 3 (як нормальний) означає "немає витратників", але я б сказав, що такий випадок означає, що вищий символ (вимірюється середнім z-значенням, кожне прийняте до четвертого потужність) подібна до нормального розподілу. З іншого боку, величезний куртоз, безумовно, вказує на проблему, що переживає. Так, нормальні графіки qq краще для більш вдосконаленої діагностики. До речі, нормальна ділянка qq та надлишковий куртоз мають міцний математичний зв'язок.
Пітер Вестфалл

3

На мою думку, коефіцієнт перекосу корисний для мотивації термінів: позитивно перекошений та негативно перекошений. Але саме там вона зупиняється, якщо ваша мета - оцінити нормальність. Класичні заходи косості та куртозу часто не вдається зафіксувати різні види відхилення від нормальності. Зазвичай я рекомендую своїм студентам використовувати графічні прийоми, щоб оцінити, чи є розумним оцінювати нормальність, наприклад, qq-графік або звичайний графік ймовірності. Також із зразком адекватного розміру також може бути використана гістограма. Боксерси також корисні для виявлення чужих людей або навіть важких хвостів.

Це узгоджується з рекомендаціями АПА 1999 р.:

" Припущення. Вам слід докласти зусиль, щоб переконатися, що основні припущення, необхідні для аналізу, є обґрунтованими з огляду на дані. Ознайомтесь із залишками уважно. Не використовуйте тести розподілу та статистичні показники форми (наприклад, косостість, куртоз) як заміну для графічного вивчення ваших залишків. Використання статистичного тесту для діагностики проблем у підгонці моделі має кілька недоліків. По-перше, тести на діагностичну значимість на основі зведених статистичних даних (наприклад, тести на однорідність дисперсії) часто непрактично чутливі; наші статистичні тести моделей часто більш надійні, ніж наші статистичні тести припущень. По-друге, такі статистичні дані, як перекос і куртоз, часто не вдається виявити порушення розподілу в залишках. По-третє, статистичні тести залежать від розміру вибірки, і зі збільшенням кількості вибірки, тести часто відкидають нешкідливі припущення. Загалом, графічного аналізу припущень немає заміни."

Довідка: Вілкінсон, Л. та Спеціальна група зі статистичного висновку. (1999). Статистичні методи в журналах психології: Настанови та пояснення. Американський психолог, 54, 594-604.


1

Залежно від того, наскільки застосовано курс, може виникнути питання точності оцінок. Точність оцінки дисперсії сильно залежить від куртозу. Причина цього трапляється в тому, що при високому куртозі розподіл дозволяє отримати рідкісні, надзвичайно потенційно спостережувані дані. Таким чином, процес генерації даних буде давати дуже екстремальні значення в одних вибірках, а не такі екстремальні значення в інших. У першому випадку ви отримуєте дуже велику оцінку дисперсії, а в другому - невелику оцінку дисперсії.

Якби застаріле та неправильне тлумачення «піку» було усунене, а натомість цілком приділялось іншим особам (тобто рідкісним, крайнім спостереженням), тоді куртозу було б легше навчати на вступних курсах. Але люди скручуються в вузли, намагаючись виправдати «пік», тому що це (неправильно) зазначено в своїх підручниках, і вони пропускають реальні додатки куртозу. Ці програми в основному відносяться до людей, що втратили лиць, і звичайно важливі для курсів прикладної статистики.


1
Ви той самий Пітер Вестфаль, що є автором найбільш схваленої відповіді в цій темі? Якщо так, ви можете з’єднати свої профілі разом, а потім безпосередньо відредагувати стару відповідь, а не опублікувати іншу відповідь.
Амеба каже, що повернеться до Моніки

1
Так, вибачте, що пропустили етикет.
Пітер Вестпад

-1

Курт[Х]=Е[(Х-мкσ)4]=мк4σ4=Е[(Х-мк)4](Е[(Х-мк)2])2,

1нi=1нмк,σ2,мк4мкσ2


1
Проблема полягає в тому, що, як тільки ви отримуєте куртоз, це дуже неінтуїтивно, що це означає (якщо щось таке). Це не відповідає корисним якостям дистрибуції.
Пітер Флом - Відновити Моніку

Так, куртоз співпадає з дуже корисною якістю розподілу - це міра хвостової ваги (видатки). Підтримуючі математичні теореми, для яких немає контрприкладу: (i) куртоз знаходиться між E (Z ^ 4 * I (| Z |> 1)) і E (Z ^ 4 * I (| Z |> 1)) + 1 , для всіх розподілів, що мають кінцевий 4-й момент. (ii) для підкласу безперервних розподілів, де щільність Z ^ 2 зменшується на (0,1), куртоз знаходиться між E (Z ^ 4 * I (| Z |> 1)) і E (Z ^ 4 * I (| Z |> 1)) + .5 і (iii) для будь-якої послідовності розподілів з куртозом, що тяжіє до нескінченності, E (Z ^ 4 * I (| Z |> b)) / kurtosis -> 1, для кожен справжній b.
Пітер Вестфалл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.