Відмінності визначення куртозу та їх інтерпретація


10

Нещодавно я зрозумів, що існують відмінності у значеннях куртозу, передбачені SPSS та Stata.

Дивіться http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

Я розумію, що інтерпретація того ж була б іншою.

Будь-яка порада, як з цим боротися?


Я знав про перші дві формули, і їх досить легко відрізнити; Я не бачив тієї третьої формули.
Пітер Флом

Відповіді:


9

Три формули

Три формули куртозу зазвичай використовуються різними програмами. Я наведу всі три формули ( , G 2 і b 2 ) та програми, які їх використовують.г2Г2б2

Перша формула і типове визначення , що використовується в багатьох підручниках (це друга формула на засланні ви умова) деmrпозначаємоменти вибірки:

г2=м4м22
мr

мr=1н(хi-х¯)r

Іноді до цієї формули додається термін корекції -3, щоб нормальний розподіл мав куртоз 0. Формула куртозу з терміном -3 називається надлишковим куртозом (перша формула в посиланні, яке ви надали).

Друга формула в (використовується SAS, SPSS і MS Excel, це третя формула на засланні ви надали)

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

де - куртоз, визначений у першій формулі.g2

Третя формула є (використовується Minitab і BMDP)

b2=m4s43=(n1n)2m4m223

де - неупереджена вибіркова проба :с2

с2=1н-1(хi-х¯)2

У Rкуртозі можна обчислити, використовуючи kurtosisфункцію з e1071пакета (посилання тут ). Параметр typeвизначає, яка з трьох формул використовується для обчислень (1 = , 2 = G 2 , 3 = b 2 ).г2-3Г2б2

Ці два документи обговорюють та порівнюють усі три формули: першу , другу .

Підсумок відмінностей між формулами

  1. Використовуючи , нормальний розподіл має значення куртозу 3, тоді як у формулах, що містять корекційний термін -3 (тобто G 2 і b 2 ), нормальний розподіл має надлишковий куртоз 0.г2Г2б2
  2. -єдина формула, яка даєнеупереджені оцінкидля нормальних зразків(тобто очікування G 2 при нормальності дорівнює нулю, або E ( G 2 ) = 0 ).Г2Г2Е(Г2)=0
  3. Для великих зразків різниця між формулами незначна, а вибір не має великого значення.
  4. Для малих вибірок із звичайного розподілу відношення трьох формул за середньою квадратичною помилкою (MSE) становить: . Отже, g 2 має найменший, а G 2 - найбільший (хоча лише G 2 є неупередженим). Це тому, що G 2 має найбільшу дисперсію з трьох формул: Var ( b 2 ) < Varmse(г2)<mse(б2)<mse(Г2)г2Г2Г2Г2 .Вар(б2)<Вар(г2)<Вар(Г2)
  5. Для малих вибірок з ненормальних розподілів відношення трьох формул за зміщенням є: . З точки зору середніх квадратів erorrs: MSE ( G 2 ) < MSE ( г 2 ) < MSE ( б 2 ) . Отже, G 2 має найменшу середню похибку у квадраті та найменший зміщення трьох формул. b 2упередженість(Г2)<упередженість(г2)<упередженість(б2)mse(Г2)<mse(г2)<mse(б2)Г2б2 має найбільшу середню квадратичну помилку та ухил.
  6. Для великих зразків ( ) з ненормальних розподілівн>200 співвідношення трьох формул з точки зору зміщення становить: . З точки зору середніх квадратів erorrs: MSE ( б 2 ) < MSE ( г 2 ) < MSE ( G 2 ) .упередженість(Г2)<упередженість(г2)<упередженість(б2)mse(б2)<mse(г2)<mse(Г2)

Дивіться також сторінку Вікіпедії та сторінку MathWorld про куртоз.


Я б назвав це приємною, чіткою інтерпретацією "звичайної історії". Додам, що терміни лептокуртичний, мезокуртичний, платикуртичний - це лише багаж, який ми повинні залишити після себе у 20 столітті: у нас є міра, про яку слід думати кількісно. Більш серйозно, інтерпретація, що досягається, порівняно з плоским покриттям, просто не справедливо для великої різниці в можливих формах розподілу, навіть тих, які всі симетричні. Нарешті, упередження на практиці не сильно кусається, якщо ви не граєте з невідповідно маленькими зразками, але дисперсія справді є!
Нік Кокс

Не могли б ви уточнити підсумковий пункт №2? Очевидно, що є вибірковою статистикою, але очевидно, що вона не є ідентично нульовою для будь-якого, крім виродженого розподілу. Можливо, ви мали намір сказати, що її очікування дорівнює нулю? (BTW, що таке " γ 2 " у його формулі? G 2 можливо?)Г2γ2г2
whuber

@whuber: Так, звичайно, очікування дорівнює нулю. Γ 2 був реліктом від раніше відповіді і повинні бути г 2 (зараз змінилося); Свою відповідь я досить сильно відредагував. Г2γ2г2
COOLSerdash

Гаразд, краще виглядає. Я підтримаю це, але сподіваюся, ви врешті-решт видалите цю фразу "Для нормального розподілу ". Г2=0
whuber

7

Посилання, про яке йдеться, також говорить про SAS. Але насправді ніщо в цьому питанні, окрім, можливо, власного фокусу плаката, не обмежує це лише названими програмами.

Я думаю, що нам тут потрібно виділити досить різні проблеми, деякі з яких є ілюзорними, а деякі - справжніми.

  1. Деякі програми роблять, а деякі ні, віднімають 3 так, що повідомляється міра куртозу 3 для гауссових / нормальних змінних без віднімання і 0 з відніманням. Я бачив людей, які спантеличені цим, часто, коли різниця виявляється 2,999, а не точно 3.

  2. Деякі програми використовують корекційні коефіцієнти, призначені для того, щоб оцінити куртоз без упередженості. Ці поправочні коефіцієнти підходять до 1, оскільки розмір вибірки збільшується. Оскільки куртоз недостатньо добре оцінений у невеликих пробах, це не повинно викликати особливих проблем.н

Отже, існує невелика проблема формул: №1 набагато більша, ніж №2, але обидві незначні, якщо їх розуміють. Порада чітко полягає в тому, щоб переглянути документацію програми, яку ви використовуєте, і якщо немає документації, яка б пояснила таку деталь, негайно відмовитися від цієї програми. Але тест, такий простий, як змінна (1, 2), дає куртоз 1 або 4 залежно від №1 поодинці (без коригуючого коефіцієнта).

Тоді питання задається інтерпретацією, але це набагато більш відкрита і суперечлива справа.

Перш ніж ми перейдемо до основної області обговорення, часто повідомляється, але маловідома труднощі полягає в тому, що оцінки куртозу обмежені як функція від розміру вибірки. Я написав огляд у Cox, NJ 2010. Межі спотвореності та куртозу зразків. Статистичний журнал 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Анотація: Скісність і куртоз зразків обмежені функціями розміру вибірки. Межі або наближення до них неодноразово були повторно виявлені протягом останніх кількох десятиліть, але, однак, вони залишаються лише маловідомими. Межі надають упередженості оцінці і, в крайньому випадку, означають, що жоден зразок не міг би точно свідчити про його батьківський розподіл. Основні результати пояснюються в навчальному огляді, а також показано, як Stata та Mata можуть використовуватися для підтвердження та дослідження їх наслідків.

Тепер до того, що зазвичай вважається суть справи:

Багато людей перекладають куртоз як пік, але інші наголошують, що він часто служить мірою ваги хвоста. Насправді обидві інтерпретації можуть бути обома розумними формулюваннями для деяких розповсюджень. Майже неминуче не існує простого словесного тлумачення куртозу: наша мова недостатньо багата на порівняння сум четвертих потужностей відхилень від середніх та сум другої сили однакових.

У незначній і часто недооціненій класиці Ірвінг Капланський (1945а) звернув увагу на чотири приклади розподілів з різними значеннями куртозу та поведінки, не узгоджуваних з деякими дискусіями про куртоз.

хc=π

(1)   (1/3c)(9/4+х4)досвід(-х2)

(2)   (3/(c8))досвід(-х2/2)-(1/6c)(9/4+х4)досвід(-х2)

(3)   (1/6c)(досвід(-х2/4)+4досвід(-х2))

(4)   (33/16c)(2+х2)досвід(-3х2/4)

Навчально побудувати ці щільності. Користувачі статистики можуть завантажувати мою kaplanskyпрограму з SSC. Використання логарифмічної шкали для щільності може допомогти.

Не даючи повних деталей, ці приклади підривають будь-яку просту історію про те, що низький чи високий куртоз має чітку інтерпретацію з точки зору піку або навіть будь-якого іншого одиничного контрасту.

Якщо ім’я Ірвінга Капланського дзвонить у дзвін, це, мабуть, тому, що ви знаєте його роботи в сучасній алгебрі. Він (1917-2006) був канадським (пізніше американським) математиком, навчався та досліджував у Гарварді, Чикаго та Берклі, з військовим роком у групі прикладної математики Національної ради оборони при Колумбійському університеті. Капланський зробив великий внесок у теорію груп, теорію кілець, теорію алгебр операторів та теорію поля. Він був досвідченим піаністом і ліриком, захопленим і чітким викривачем математики. Зазначимо також деякі інші внески у ймовірність та статистику Капланського (1943, 1945b) та Капланського та Ріордана (1945).

Капланський, І. 1943. Характеристика нормального розподілу. Літописи математичної статистики 14: 197-198.

Капланський, І. 1945а. Поширена помилка, що стосується куртозу. Журнал, Американська статистична асоціація 40: 259.

Капланський, І. 1945б. Асимптотичний розподіл прогонів послідовних елементів. Літописи математичної статистики 16: 200-203.

Капланський, І. та Ріордан, Дж. 1945. Множинне узгодження та запуски символічним методом. Літописи математичної статистики 16: 272-277.


1
+1 Цікаві коментарі про Капланського, з алгебраїчною роботою якого я давно знайомий.
whuber

Нік, ваш коментар "Насправді, обидві інтерпретації (піковість і хворобливість) можуть бути обом розумним формулюванням для деяких розповсюджень". невірно, тому не корисно, просто тому, що куртоз нічого не говорить про "пік". Серйозно, чи можна навіть визначити, що означає "пік"? І, якщо я можу, наступні дії: Враховуючи ваше визначення "піку" (якщо припустити, що ви можете придумати його), як це, математично, пов'язане з куртозом?
Пітер Вестпад

@ Peter Westfall Якщо ми можемо погодитись, що куртоз - це те, що визначає куртоз, то мій аргумент - це лише аргумент Капланського, який ґрунтується на конкретних кривих та числових результатах, а не на словесному спарингу, тобто, що вищий куртоз іноді йде з більшою піковою щільністю, і навпаки нижній куртоз. Я зовсім не частковий до терміну пік, і коли я зобов’язаний спростити словесно, схильний стверджувати, що на практиці куртоз - це переважно історія ваги хвоста. Я думаю, що формули тут роблять всю роботу і несуть всю статистичну вагу і вважають словесну полеміку менш корисною.
Нік Кокс

До того ж, я пропоную, не може бути легкої характеристики куртозу, за винятком цілком симетричних розподілів. Я не думаю, що ніхто взагалі не зобов'язаний визначати вершину; Визначення, яке існує, - це куртоз, а практичні питання - як думати про це та наскільки він корисний.
Нік Кокс

Заява "просто тому, що куртоз нічого не говорить про пік", сам по собі є необгрунтованим. Пропущені посилання, безумовно, включають ваш документ у TAS, який доступний зацікавленим людям для розгляду вашої тривалої дискусії.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.