Чим відрізняється діаграми ймовірності, PP-графіки та QQ-графіки при спробі аналізу пристосованого розподілу даних?
Чим відрізняється діаграми ймовірності, PP-графіки та QQ-графіки при спробі аналізу пристосованого розподілу даних?
Відповіді:
Як зазначає @ vector07 , ймовірнісний графік є більш абстрактною категорією членів pp-графіків та qq-графіків. Таким чином, я обговорю різницю між двома останніми. Найкращий спосіб зрозуміти відмінності - це подумати про те, як вони побудовані, і зрозуміти, що вам потрібно визнати різницю між квантилами розподілу та часткою розподілу, який ви пройшли, досягнувши заданого квантила. Ви можете побачити зв'язок між ними, побудувавши графік функції кумулятивного розподілу (CDF) розподілу. Наприклад, розглянемо стандартний нормальний розподіл:
Ми бачимо, що приблизно 68% осі у (область між червоними лініями) відповідає 1/3 осі x (область між синіми лініями). Це означає, що коли ми будемо використовувати пропорцію розподілу, яку ми пройшли, щоб оцінити відповідність між двома розподілами (тобто ми використовуємо pp-графік), ми отримаємо велику роздільну здатність у центрі розподілів, але менше у хвости. З іншого боку, коли ми використовуємо квантили для оцінки відповідності між двома розподілами (тобто ми використовуємо qq-графік), ми отримаємо дуже хорошу роздільну здатність у хвостах, але менше в центрі. (Оскільки аналітики даних зазвичай більше стурбовані хвостами розподілу, що матиме більший вплив на висновок, наприклад, qq-графіки набагато частіше, ніж pp-графіки.)
Щоб побачити ці факти в дії, я пройдуся шляхом побудови pp-сюжету та qq-сюжету. (Я також проходжу побудову qq-сюжету усно / повільніше тут: QQ-сюжет не відповідає гістограмі .) Я не знаю, чи ви використовуєте R, але, сподіваюся, це буде само собою зрозумілим:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
На жаль, ці сюжети не дуже відрізняються, оскільки є мало даних, і ми порівнюємо справжнє нормальне з правильним теоретичним розподілом, тому немає нічого особливого, що можна побачити ні в центрі, ні в хвостах розподілу. Щоб краще продемонструвати ці відмінності, я побудував (розподілений) жирний розподіл з 4 ступенями свободи та бімодальним розподілом нижче. Жирові хвости набагато виразніші в qq-графіці, тоді як бімодальність більш виразна в pp-графіці.
Ось визначення з v8doc.sas.com :
Діаграма PP порівнює емпіричну функцію кумулятивного розподілу набору даних із заданою теоретичною функцією кумулятивного розподілу F (·). Діаграма QQ порівнює квантили розподілу даних з квантовими розмірами стандартизованого теоретичного розподілу із визначеного сімейства розподілів.
У тексті вони також згадують:
Довідка :
SAS Institute Inc., SAS OnlineDoc®, версія 8, Cary, NC: SAS Institute Inc., 1999