Порівняння хвостів двох вибіркових розподілів


13

У мене є два набори даних, орієнтовно орієнтовані навколо нуля, але я підозрюю, що вони мають різні хвости. Я знаю кілька тестів для порівняння розподілу з нормальним розподілом, але я хотів би безпосередньо порівняти два розподіли.

Чи є простий тест для порівняння жирності хвоста 2 розподілу ?

Спасибі
fRed


Чи дійсно тег "жирові хвости" (для майбутніх питань)?
chl

@chl Ви мені кажете, я, звичайно, не такий досвід, як ви у статистиці. Але ІМО - це класичний ухил недооцінювати важливість хвостів. Ви читали твір Мандельброта? Жирові хвости є дуже важливими в застосованій статистиці для фінансів, а кредитна криза 2008 року певною мірою походить із деяких моделей ціноутворення, які передбачали нормальність і недооцінюють жирові хвости деякого розподілу кореляції. Ми можемо обговорити це в іншій темі :)
RockScience

1
Це питання може бути цікавим, але деякі роз'яснення будуть вітатися. Вас турбує один хвіст чи обидва? Як ви вимірюєте «жирність»? (Чи готові ви змінити і змінити масштаб двох розподілів для порівняння, наприклад?) Як ви вимірюєте відхилення в "жирності"? Якщо ви обмірковуєте тест на гіпотезу, то яка саме буде альтернативна гіпотеза?
whuber

@RockScience, у мене є два дистрибутиви і хочу порівнювати лише хвости, ти впорався, як це зробити? Я знаю, що ви можете обчислити куртоз, але як ви перевірили, що обидва хвости відрізняються?
користувач2380782

Відповіді:


6

Це питання, схоже, належить до тієї ж сім’ї, що і попередня щодо тестування того, чи мають два зразки однакові перекоси , тож ви, можливо, хочете прочитати мою відповідь на це . Я вважаю, що L-моменти також були б корисні і з тих самих причин (зокрема, кутоз L- косості в даному випадку).


2

Побудуючи поріг, кажучи лямбда, ми можемо перевірити рівність двох засобів або дисперсій двох розподілів, обмежених на хвостовій області (\ лямбда, нескінченність) на основі двох наборів даних спостережень, що падають у цю хвостову область. Звичайно, два зразки t-тесту або F-тесту можуть бути в порядку, але не бути потужними, оскільки випадкова величина, обмежена в цій області хвоста, не є нормальною, навіть оригінальна.


Екстремальна теорія вартості вивчає такі усічені розподіли: асимптотично розподіл хвостів зазвичай належить до узагальненої родини Парето . Можна також спробувати пристосувати дані до цього сімейства розподілів і порівняти параметри.
Вінсент Зоонекінд

@Vincent Хвіст може мати практично будь-яке поширення. Теорія екстремальних значень мало говорить про хвости: вона зосереджена на розподілі максимумів (або мінімумів) зразків iid, що зовсім інша річ.
whuber


1

Тест Chi Square (тест на придатність придатності) буде дуже хорошим для порівняння хвостів двох розподілів, оскільки він побудований для порівняння двох розподілів на відрізки значень (графічно представлені гістограмою). І, хвости будуть складатися у найбільш далеко відро.

Незважаючи на те, що цей тест зосереджений на цілому розподілі, а не лише на хвості, ви можете легко спостерігати, яка величина чи розбіжність Chi-квадрату походить від різниці жирності хвостів.

Слідкуйте, що отримана гістограма може насправді візуально дати набагато більше інформації щодо відповідної жирності хвостів, ніж будь-яка статистична значимість, пов'язана з тестом. Одна справа констатувати, що жирність хвостів статистично відрізняється. Це ще одне візуальне спостереження за цим. Кажуть, картина варта тисячі слів. Іноді також варто тисячу чисел (це має сенс, враховуючи, що графіки інкапсулюють усі числа).


3
Мені здається, що тест на площі Чі буде особливо поганим при виявленні відмінностей у хвостах. Якщо хвости охоплені багатьма бункерами, то, - оскільки вони є хвостами! - може бути мало даних у будь-якій з бункерів, недійсне наближення чи-квадрата. Якщо хвости покриті кількома бункерами, ви втрачаєте майже всю владу, щоб розмежувати їх форми, і те, що вам вдається дискримінувати, може бути не дуже актуальним чи корисним. (Однією з проблем, з якою ми проти цього, є те, що "жирність хвоста" не визначена, тому питання справді занадто розпливчасте, щоб добре відповісти.)
whuber

@whuber, я не можу сказати, чи погоджуюся я з вашим коментарем, оскільки я не повністю розумію одне з ваших пунктів. Що ви маєте на увазі саме під "недійсним наближенням чи-квадрата"?
Sympa

Тест чі-квадрата базується на наближенні теорії Норма до істинного розподілу статистики хі-квадрата. Зазвичай це наближення стає бідним, коли кількість
покупок

@whuber, дякую за пояснення. Зважаючи на це, я відчуваю, що перша фраза вашого першого коментаря може бути не настільки нюансованою, як ви, можливо, піклувались про те ("Тест Чі Квадрат буде особливо поганим при виявленні різниці в хвостах"). Можливо, більш підходящим твердженням було б "це залежить ..." Цей тест має декілька достоїнств, у тому числі змушує вас визначити відповідні бункери. І так само важливо полегшити побудову гістограми. Звичайно, якщо у вас є менше 5 спостережень у відрі, ви втратите точність, як ви добре пояснили.
Sympa

@Gaetan Я ціную увагу до нюансів, але в цьому випадку рішення здається виправданим. Порівняно з багатьма іншими методами порівняння розподілів, тест Chi Squared не витримує успіху. Якщо ви "визначаєте відповідні скриньки" на основі самих даних, тест недійсний. Крім того, гістограма зазвичай не є корисним способом перегляду хвостів розподілу. Однак я не бажаю пропонувати альтернативи, тому що проблема є чітко визначеною: лише що може означати, щоб два розподіли мали однакову «жирність хвостів»? Куртоз - одна з можливостей, але це жорстка міра.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.