PP-графіки проти QQ-графіків


39

Чим відрізняється діаграми ймовірності, PP-графіки та QQ-графіки при спробі аналізу пристосованого розподілу даних?


4
Здається, вікіпедія може допомогти вам у цьому: графік ймовірності . QQ сюжет , PP ділянка . Якщо у вас є конкретніше запитання, уточнюйте!
вектор07

Дякую, я думаю, що я заплутав сюжет PP та ймовірність сюжету!
кей

Відповіді:


41

Як зазначає @ vector07 , ймовірнісний графік є більш абстрактною категорією членів pp-графіків та qq-графіків. Таким чином, я обговорю різницю між двома останніми. Найкращий спосіб зрозуміти відмінності - це подумати про те, як вони побудовані, і зрозуміти, що вам потрібно визнати різницю між квантилами розподілу та часткою розподілу, який ви пройшли, досягнувши заданого квантила. Ви можете побачити зв'язок між ними, побудувавши графік функції кумулятивного розподілу (CDF) розподілу. Наприклад, розглянемо стандартний нормальний розподіл:

введіть тут опис зображення

Ми бачимо, що приблизно 68% осі у (область між червоними лініями) відповідає 1/3 осі x (область між синіми лініями). Це означає, що коли ми будемо використовувати пропорцію розподілу, яку ми пройшли, щоб оцінити відповідність між двома розподілами (тобто ми використовуємо pp-графік), ми отримаємо велику роздільну здатність у центрі розподілів, але менше у хвости. З іншого боку, коли ми використовуємо квантили для оцінки відповідності між двома розподілами (тобто ми використовуємо qq-графік), ми отримаємо дуже хорошу роздільну здатність у хвостах, але менше в центрі. (Оскільки аналітики даних зазвичай більше стурбовані хвостами розподілу, що матиме більший вплив на висновок, наприклад, qq-графіки набагато частіше, ніж pp-графіки.)

Щоб побачити ці факти в дії, я пройдуся шляхом побудови pp-сюжету та qq-сюжету. (Я також проходжу побудову qq-сюжету усно / повільніше тут: QQ-сюжет не відповідає гістограмі .) Я не знаю, чи ви використовуєте R, але, сподіваюся, це буде само собою зрозумілим:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

введіть тут опис зображення

На жаль, ці сюжети не дуже відрізняються, оскільки є мало даних, і ми порівнюємо справжнє нормальне з правильним теоретичним розподілом, тому немає нічого особливого, що можна побачити ні в центрі, ні в хвостах розподілу. Щоб краще продемонструвати ці відмінності, я побудував (розподілений) жирний розподіл з 4 ступенями свободи та бімодальним розподілом нижче. Жирові хвости набагато виразніші в qq-графіці, тоді як бімодальність більш виразна в pp-графіці.

введіть тут опис зображення введіть тут опис зображення


14
@AleksandrH Ми щиро цінуємо вашу стурбованість студентами. Неправильне ваше припущення, що цей сайт призначений лише для студентів, які не знайомі зі статистикою, є невірним; і ваша інсинуація на те, що "багатослівні відповіді" не підходять студентам, просто не відповідає дійсності, як свідчить багато "багатослівних" відповідей на цьому веб-сайті. Більш конструктивний спосіб висловити свою скаргу - це на прикладі: покажіть нам, як покращити наші відповіді, і спонукайте нас наслідувати вас, розмістивши тут відповідь, що відповідає вашим стандартам для задоволення потреб нових студентів.
whuber

12

Ось визначення з v8doc.sas.com :

Діаграма PP порівнює емпіричну функцію кумулятивного розподілу набору даних із заданою теоретичною функцією кумулятивного розподілу F (·). Діаграма QQ порівнює квантили розподілу даних з квантовими розмірами стандартизованого теоретичного розподілу із визначеного сімейства розподілів.

У тексті вони також згадують:

  • відмінності щодо способів побудови та інтерпретації графіків PP та графіків QQ.
  • переваги використання тих чи інших, щодо порівняння емпіричних та теоретичних розподілів.

Довідка :

SAS Institute Inc., SAS OnlineDoc®, версія 8, Cary, NC: SAS Institute Inc., 1999

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.