Кількісне визначення QQ сюжету


10

Діаграма qq може бути використана для візуалізації того, наскільки схожі два розподіли (наприклад, візуалізація подібності дистрибутива до нормального розподілу, а також для порівняння двох розподілів артеріальних даних). Чи є які-небудь статистичні дані, які генерують більш об'єктивну, числову міру, яка представляє їх схожість (бажано, у нормалізованій (0 <= x <= 1) формі)? Наприклад, коефіцієнт Джіні використовується в економіці при роботі з кривими Лоренца; є щось для QQ-сюжетів?

Відповіді:


8

Як я кажу у відповідь на ваш коментар до вашого попереднього запитання, ознайомтеся з тестом Колмогорова-Смірнова. Він використовує максимальну абсолютну відстань між двома функціями кумулятивного розподілу (альтернативно мислиться як максимальне абсолютне відстань кривої у графіку QQ від лінії 45 градусів) як статистичну. Тест KS можна знайти в R за допомогою команди ks.test()в бібліотеці 'stats'. Ось додаткова інформація про його використання R.


Зауважимо, що (наскільки я розумію) тест KS призначений для тестування емпіричних даних на основі апріорного розподілу. Це не підходить для порівняння двох емпіричних розподілів, також не доцільно порівнювати емпіричні дані з апріорним розподілом, значення параметрів якого оцінювали з емпіричних даних.
Майк Лоуренс

4
@Mike, ви можете використовувати тест KS для порівняння двох розподілених емпіричним шляхом розподілів, див. Попередню відповідь та коментарі Чарлі stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W

@Andy, Ah, я взяв пункт 3 з itl.nist.gov/div898/handbook/eda/section3/eda35g.htm як такий, що має висновок, що ви не можете порівняти два емпіричні CDF, але я бачу, що моє припущення не було відповідний. Приємно знати, дякую!
Майк Лоуренс

2
Однак пункт 3 означає, що ви не можете використовувати KS, щоб перевірити, чи надходять ваші дані від звичайного розподілу із середньою та sd оцінкою з даних . Це популярна помилка серед студентів-психологів, яких я зустрічаю.
Стефан Коласа

1
(+1) Вищий аспект цієї відповіді полягає в тому, що статистику KS можна читати безпосередньо з діаграми QQ.
whuber

2

Нещодавно я використовував співвідношення між емпіричним CDF та пристосованим CDF для кількісної оцінки корисності, і мені цікаво, чи може цей підхід також бути корисним у поточному випадку, який, наскільки я розумію, передбачає порівняння двох емпіричних наборів даних. Інтерполяція може бути необхідною, якщо між наборами є різні кількості спостережень.


Ваш документ містить дуже приємні цифри :)
chl

@chi: Усі вони були створені в R за допомогою ggplot2. Це фантастична система виробництва графіки!
Майк Лоуренс

Що ви маєте на увазі при встановленому CDF?
Амплефорт

@Ampleforth, в цій роботі я підходив розподілу до емпіричних даних, тому під "підходящим CDF" я мав на увазі теоретичний CDF пристосованого розподілу. Вибачте, я бачу, як я міг бути більш зрозумілим!
Майк Лоуренс

О, будь ласка, не вибачайтесь. Моя відсутність статистики досить велика, і це єдина проблема тут;) Також я не читав ваші статті, а лише оглядав ваші графіки, які мені дуже сподобалися.
Амплефорт

1

Я б сказав, що більш-менш канонічним способом порівняння двох розподілів було б тест на чи-квадрат. Однак, статистика не нормалізується, і це залежить від того, як ви виберете контейнери. Останній пункт, звичайно, можна розглядати як особливість, а не помилку: правильний вибір контейнерів дозволяє більш уважно шукати схожість у хвостах, ніж посередині розподілів.


1

Досить прямим показником «близькості» до лінійності в QQ-сюжеті буде статистика тесту Шапіро-Франція (яка тісно пов’язана з більш відомим Шапіро-Вілком і може розглядатися як просте наближення до неї).

Статистика Шапіро-Франції - це кореляція у квадраті між впорядкованими значеннями даних та очікуваною статистикою звичайного порядку (іноді позначена "теоретичними квантовими") - тобто це має бути квадрат кореляції, який ви бачите на графіку, досить прямий підсумковий захід.

(Shapiro-Wilk схожий, але враховує кореляцію між статистикою замовлень; вона має аналогічну інтерпретацію як Shapiro-Francia і майже однаково корисна, як резюме сюжету QQ.)

У будь-якому випадку, для підсумків єдиного числа того, що показує графік QQ, один із них може бути підходящим способом узагальнення сюжету.

1-W'

н1-W')нн(1-W')нннжурнал(н)журнал(н)н

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.