Чому високий позитивний куртоз є проблематичним для тестів на гіпотези?


14

Я чув (вибачте, не можу надати посилання на текст, щось мені сказали), що високий позитивний куртоз залишків може бути проблематичним для точних тестів гіпотез та довірчих інтервалів (і, отже, проблеми зі статистичним висновком). Це правда, і якщо так, то чому? Чи не може високий позитивний куртоз залишків не вказувати на те, що більшість залишків знаходяться поблизу середнього залишкового значення 0 і тому є менш великі залишки? (Якщо у вас є відповідь, будь ласка, спробуйте дати відповідь з не надто невмілою математикою, оскільки я не дуже математично схильний).


4
Я здогадуюсь, що ви зосереджуєтесь на моделях з ідеальними умовами нормальних (гауссових) помилок. (У багатьох інших контекстах можна очікувати високого куртозу залишків.) Високий куртоз, швидше за все, має на увазі розподіл жирніше, ніж нормальний, тому деякі дуже високі (+ або -) залишки. Навіть якщо їх багато біля нуля, це лише хороша новина, і саме можливі погані новини потребують уваги. Але в свою чергу це може означати що завгодно будь-яку кількість речей. Залишковий та пристосований сюжет зазвичай є більш інформативним.
Нік Кокс

Дійсно, я зосереджувався на моделях з нормальністю припущень.
DDK

Відповіді:


15

почув [...], що високий позитивний куртоз залишків може бути проблематичним для точних тестів гіпотез та довірчих інтервалів (і, отже, проблем зі статистичним висновком). Це правда, і якщо так, то чому?

Для деяких видів тестування гіпотез це правда.

Чи не може високий позитивний куртоз залишків не вказувати на те, що більшість залишків знаходяться поблизу середнього залишкового значення 0 і тому є менш великі залишки?

Немає.

Схоже, ви пов'язуєте дисперсійну концепцію з куртозом. Якби дисперсія була меншою, схильність до більш малих залишків та меншої кількості великих залишків зійшлася б. Уявіть, що ми тримаємо стандартне відхилення постійним, поки ми змінюємо куртоз (тому ми безумовно говоримо про зміни куртозу, а не про дисперсію).

Порівняйте різні варіанти (але той же куртоз):

введіть тут опис зображення

з різним куртозом, але однаковою дисперсією:

введіть тут опис зображення

(зображення з цієї публікації )

Високий куртоз у багатьох випадках асоціюється з більш малими відхиленнями від середнього - більше малих залишків, ніж ви знайдете при нормальному розподілі .. але, щоб стандартне відхилення було таким же значенням, ми також повинні мати більше великі залишки (тому що, якщо мати більше малих залишків, типова відстань від середньої буде меншою). Щоб отримати більше як великих залишків, так і малих залишків, у вас буде менше залишків «типового розміру» - тих, що мають одне стандартне відхилення від середнього.

це залежить від того, як ви визначаєте "малість"; Ви не можете просто додати багато великих залишки і постійна фіксація відхилень, потрібно що - то компенсувати це - але за деякими даними заходи «маленькі» ви можете знайти шляхи підвищення ексцесу без збільшення цієї конкретної міри. (Наприклад, вищий куртоз не означає автоматично більш високий пік)

Більш високий куртоз має тенденцію до більшої кількості залишків, навіть якщо ви тримаєте дисперсію постійною.

[Крім того, в деяких випадках концентрація малих залишків може призвести до більшої проблеми, ніж додаткова частка найбільшої кількості залишків - залежно від того, на що ви дивитесь.]

У будь-якому випадку давайте подивимось на приклад. Розглянемо однопробний t-тест та розмір вибірки 10.

Якщо ми відкинемо нульову гіпотезу, коли абсолютне значення t-статистики перевищує 2.262, тоді, коли спостереження незалежні, однаково розподілені від звичайного розподілу, а середня гіпотеза - справжня середня сукупність, ми відкинемо нуль гіпотеза 5% часу.

Розглянемо конкретний розподіл із значно більшим куртозом, ніж нормальний: 75% населення мають свої значення, отримані від нормального розподілу, а решта 25% мають свої значення, отримані від звичайного розподілу зі стандартним відхиленням у 50 разів більше.

Якщо я правильно порахував, це відповідає куртозу 12 (надлишок куртозу 9). Отриманий розподіл набагато більше, ніж нормальний, і має важкі хвости. Щільність порівнюється із звичайною щільністю нижче - вищий пік ви бачите, але на лівому зображенні не можна бачити важчий хвіст, тому я також побудував логарифм густин, який розтягує нижню частину зображення і стискає верх, полегшуючи побачити як вершину, так і хвости.

введіть тут опис зображення

Фактичний рівень значимості для цього розподілу , якщо ви здійснити «5%» один-зразок Т-тест з нижче 0,9%. Це досить драматично, і крива потужності досить сильно тягне вниз.n=10

(Ви також побачите суттєвий вплив на охоплення довірчих інтервалів.)

Зауважте, що різний розподіл із таким самим куртозом, як і той, матиме різний вплив на рівень значущості.


Отже, чому рівень відхилення знижується? Це тому, що важчий хвіст призводить до декількох великих людей, що мають трохи більший вплив на стандартне відхилення, ніж це на середнє; це впливає на t-статистику, оскільки призводить до збільшення величин t між -1 і 1, зменшуючи частку значень у критичній області.

Якщо ви берете зразок, який виглядає цілком узгодженим з тим, що він прийшов від нормального розподілу, середнє значення якого досить далеко вище гіпотезованого означає, що воно значне, а потім ви берете спостереження, що знаходиться найдальше від середнього, і витягуєте його ще далі (тобто зробіть середнє значення навіть більшим, ніж під ), ви фактично зробите t-статистику меншою .H0

Дозвольте мені показати вам. Ось зразок розміру 10:

 1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23

Уявіть, що ми хочемо протестувати його на (однопробний t-тест). Виявляється, середнє значення вибірки тут становить 2,68, а стандартне відхилення вибірки - 0,9424. Ви отримуєте t-статистику 2,228 - просто в області відхилення для 5% тесту (р-значення 0,0484).H0:μ=2

Тепер зробіть це найбільше значення 50:

      1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50

Зрозуміло, що ми підтягуємо середину вгору, тому вона повинна вказувати на різницю навіть більше, ніж це було раніше, правда? Ну, ні, це не так. Т-статистика йде вниз . Зараз це 1,106, а р-значення досить велике (близько 30%). Що сталося? Ну, ми потягли середнє значення (до 7,257), але стандартне відхилення збільшилося за 15.

Стандартні відхилення дещо чутливіші до людей, що випадають, ніж кошти - коли ви вкладаєте інше, ви схильні натискати одноразову t-статистику до 1 або -1.

Якщо є шанс декількох людей, що вижили, багато того ж відбувається, тільки вони іноді можуть бути на протилежних сторонах (у такому випадку стандартне відхилення ще більше завищене, тоді як вплив на середню зменшується порівняно з однією стороною), тому t-статистика як правило, рухається ближче до 0.

Подібні речі тривають і з низкою інших поширених тестів, які передбачають нормальність - більш високий куртоз, як правило, асоціюється з більш важкими хвостами, а це означає, що більша кількість людей, що знаходяться більше, а це означає, що стандартні відхилення надуваються відносно засобів і тому відмінності, які ви хочете підібрати потрапити "заграв" ударом випускників на тест. Тобто мала потужність.


1
Вау, спасибі велике за дуже чітку і детальну відповідь. Ваш час дуже цінується!
DDK

Варто також зазначити, що хоча розподіл середньої вибірки середнього зразка не залежить від куртозу (отже, фактичний рівень значущості тестів, що передбачають нормальність, для засобів сходить до номінального рівня, як правило, 0,05, як n-> нескінченність, для всіх кінцевих куртозів), те ж саме не стосується тестів на дисперсії. Розподіл великої вибірки оціненої дисперсії залежить від куртозу, тому фактичний рівень значущості класичних тестів на дисперсію, що передбачає нормальність, не збігається до номінального рівня як n -> нескінченності, коли куртоз відрізняється від нуля.
Пітер Вестпад

Крім того, вищий куртоз математично не означає, що є "більше невеликих відхилень від середнього". Єдине, що це вам точно каже, - це те, що в хвості більше.
Пітер Вестпад

Ви не можете отримати більш великі відхилення і утримувати дисперсію постійною, якщо ви також не зробите більше невеликих відхилень; якщо ви не утримуєте дисперсію постійною, більшість ваших відхилень стають невеликими щодо нової шкали. Так що так, якщо мова йде про куртоз, математика говорить вам про те, що більше великого несе з собою більше малого.
Glen_b -Встановити Моніку

@Peter Давайте візьмемо в якості стандартизованої . Куртоз є , а є монотонним у . Якщо я переміщую ймовірність далі в хвіст , деяка ймовірність повинна рухатися до середнього значення (або я не можу утримувати ). Аналогічно, якщо я переміщую ймовірність далі в хвіст & нехай дисперсія збільшується, ширше, і тому принаймні деякі значення більше решти розподілу будуть прагнути до цих меж ; як тільки ви стандартизуєте новий ( доX κ = E ( Z 4 ) ZXκ=E(Z4)κZVar(Z)=1Xµ±kσkXXZκ1=E(Z2)κZVar(Z)=1Xμ±kσkXXZскажімо), у вас є більше менших значень у тому прямому сенсі.
Glen_b -Встановіть Моніку

4

Куртоз вимірює пережили люди. Отримані люди є проблематичними для стандартних умовиводів (наприклад, t-тести, t-інтервали), які базуються на нормальному розподілі. Ось кінець історії! І це дійсно досить проста історія.

Причина, яку ця історія недостатньо оцінює, полягає в тому, що існує античний міф про те, що куртоз вимірює "пік".

Ось просте пояснення, що показує, чому куртоз вимірює випереджаючі сили, а не "пік".

Розглянемо наступний набір даних.

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 1

Куртоз - очікуване значення (z-значення) ^ 4. Ось (z-значення) ^ 4:

6,51, 0,30, 5,33, 0,45, 0,00, 0,30, 6,51, 0,00, 0,45, 0,30, 0,00, 6,51, 0,00, 0,00, 0,30, 0,00, 27,90, 0,00, 0,30, 0,45

Середній показник - 2,78, і це оцінка куртозу. (Віднімайте 3, якщо ви хочете зайвий куртоз.)

Тепер замініть останнє значення даних на 999, щоб воно стало зовнішнім:

0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999

Тепер ось (z-значення) ^ 4:

0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00,0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 0,00, 360,98

Середній показник - 18,05, і це оцінка куртозу. (Віднімайте 3, якщо ви хочете зайвий куртоз.)

Ясна річ, що мають значення лише чужі. Нічого про "пік" чи дані поблизу середини не має значення.

Якщо ви здійснюєте стандартний статистичний аналіз з другим набором даних, вам слід очікувати неприємностей. Великий куртоз попереджає про проблему.

Ось документ, який детально розробляє:

Westfall, PH (2014). Куртоз як максимум, 1905 - 2014. RIP Американський статистик, 68, 191–195.


Чому б просто не використовувати непараметричні тести? Для цих типів проблем вони, ймовірно, переважають.
Карл

1
Погоджено, що це можливий шлях, ЯКЩО вам подобається тестування, яке швидко стає менш цікавим у своєму класичному вигляді. Але це насправді не моя стурбованість. Мене більше цікавить імовірнісне моделювання загалом. Одне застосування: Можливо, вас справді цікавить середня величина, наприклад, у випадках, коли залежна змінна - зароблені долари, середнє значення процесу цікавіше, ніж медіана процесу. Отже, що означають дані про процес, коли дані чужі? Це важка проблема, але важлива проблема, і для відповіді важливий момент куртозу. Не непарних тестів.
Пітер Вестфалл

Для розподілу Коші обрізане середнє може бути кращим показником розташування, ніж медіана, а звичайна середня величина не буде мірою розташування. Що використовувати як міру розташування, залежить від того, який розподіл є. Прикладом, для якого куртоз не був би корисним як показник, є рівномірний розподіл, для якого середнє екстремальне значення є кращим показником розташування, ніж як середня, так і середня.
Карл

Не суть. Якщо вас цікавлять суми, наприклад, долари, то звичайне значення - це міра місця розташування, яке ви хочете.
Пітер Вестфалл

Якщо у вас є розподілена змінна Коші, ви можете скласти випадок на загальну суму зароблених доларів, але середнє значення не буде особливо корисним показником місцеположення, що означає, що "очікуване значення" не має з цим пов'язаних розумних очікувань.
Карл

-3

Куртоз також вказує на асиметричні хвости. У тесті гіпотез з двома хвостами один хвіст буде довгим хвостом, а другий - коротким хвостом. Один з хвостиків може бути> альфа, але <бета. Один хвіст передавав би значення p, а інший - ні.

В основному, статистичний висновок приймає стандартну норму. Коли це не є звичайним нормальним, ви можете отримати висновок на основі більш складної механіки висновку. Ви можете нам зробити висновки Пуассона, але при розподілі, яке не є нормальним, ви не можете використовувати умовиводи, засновані на нормальних нормах.

Перекос і куртоз - міра ненормальності. Ми вчимося брати засоби та використовувати звичайні розподіли, перш ніж ми дізнаємось, що треба перевірити на нормальність. Для нормального використання потрібно 36 або більше точок даних з кожного виміру. Ви можете оцінити в 20 точок даних, але у вас все одно будуть перекоси та куртози. Коли розподіл наближається до нормальності, перекос і розподіл зникають.

Одне з пояснень визначало куртоз як пік. Іншого не зробили. Наразі це невлаштована боротьба. Куртоз - четвертий момент, область. Я на не пік питання.

Ще одна ідея, яка існує там, полягає в тому, що при перекосі медіана нахиляється до режиму, що утворює трикутник. Насолоджуйтесь.


1
Незрозуміло, що це додає нічого корисного та іншого у вже відмінні відповіді. Це додає декілька дивовижних тверджень, наприклад "нормально вимагає 36 або більше точок даних" (так що 35 не гаразд? Що є підставою для цього твердження? "Косоокість як пік" я не думаю, що хтось цього стверджує ". Статистичний висновок передбачає стандарт нормальний ": не взагалі. Куртоз - це четвертий момент, область: ні; куртоз, як визначено тут, - це безрозмірне співвідношення, засноване на четвертому та другому моментах про середнє значення.
Нік Кокс,

Четвертий момент є невід’ємним, тому це область. Як ця область перекладається на піку чи кривизну, втрачається на мені.
Девід В. Локк

Вони типовим поясненням куртозу є пік, але це неправильно на мій погляд. Я відредагую свою первісну відповідь на зміну косості як піку, щоб сказати, куртоз - це ... Дякую.
Девід В. Локк

Хвости не симетричні. Я ніколи не бачив нічого про статистичні умовиводи, що враховують асиметричні хвости. Ризик куртозу трапляється через те, що хвости будуть рухатися, коли буде зібрано більше точок даних. Скей і куртоз - це відсутність достатньої кількості даних для досягнення нормальної норми.
Девід В. Локк

1
Не так: існує маса теорії та застосувань для експоненціалів, гамми, Вейбула та багатьох, багатьох інших розподілів, які не є нормальними.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.