Сюжет QQ в Python


11

Я створив сюжет qq, використовуючи наступний код. Я знаю, що qq-графік використовується для перевірки, чи нормально поширюються дані чи ні. Моє запитання - що вказують мітки осі x та y на графіку qq і що це значення r квадратного значення?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

введіть тут опис зображення

Я знаю, що вже йде дискусія про сюжет qq , але я не міг зрозуміти концепцію, незважаючи на те, що я пройшов цю дискусію.


4
R2R2R2

R2R2R2R2

R2R2

Ви впевнені, що плануєте сюжет QQ? help(probplot)констатує: probplotстворює графік ймовірності, який не слід плутати з QQ або PP-графіком.
abukaj

Відповіді:


10

Відповідь Маконда точна, однак з оригіналу публікації я подумав, що може бути корисним трохи спростити словесність.

Сюжет QQ означає "квантильно-квантильний сюжет" .

Це ділянка, де осі цілеспрямовано перетворюються для того, щоб нормальний (або гауссовий) розподіл відображався по прямій . Іншими словами, абсолютно нормальний розподіл точно би слідував лінії з нахилом = 1 та перехопленням = 0.

Тому, якщо сюжет не здається - приблизно - прямою, то базовий розподіл не є нормальним. Якщо вона нахиляється вгору, то, наприклад, більше "високих флаєрів", ніж очікувалося. (Посилання містить більше прикладів.)


  1. Що означають позначки x & y?

У теоретичних Квантиль розташовані уздовж осі х. Тобто вісь x - це не ваші дані , це просто очікування, де мали б бути ваші дані, якби вони були нормальними.

Фактичні дані , відкладені по осі у.

Значення - це стандартні відхилення від середнього. Отже, 0це середнє значення даних, 1яке на 1 стандартне відхилення вище, і т. Д. Це означає, наприклад, що 68.27%для всіх ваших даних повинно бути від -1 до 1, якщо у вас нормальний розподіл.

  1. R2

R2R2R2R2


Нарешті, існує подібний сюжет, який рідко використовується під назвою pp plot . Цей сюжет корисніший, якщо вам цікаво зосередитись на тому, де основна частина даних лежить замість крайнощів.


1
Слово перекошене - не найкращий вибір тут: я б сказав трансформований .
Нік Кокс

Чудове пояснення. Чи можете ви пояснити, як генерується вісь x (очікувані значення)?
Вівек Анантан

1

Вісь Y показує значення спостережуваного розподілу та вісь X, значення теоретичного розподілу.

Кожна точка - квантил. Скажімо, якщо на ділянці було 100 точок, перша точка (та з нижньої лівої сторони) вказує верхню межу на інтервал, а коли впорядковується від найменшої до найбільшої, найменшої на 1 відсоток точок даних відповідний розподіл залишається в цьому інтервалі. Аналогічно, 2-а точка - це верхня межа інтервалу, де розміщено найменший 2 відсотки точок даних із розподілу. Це поняття квантиля. Але це не обмежується випадком зі 100 інтервалами, це загальне поняття, і ви можете мати якомога більше інтервалів, тоді у вас буде стільки квантилів, що описують межі інтервалів.

У своїй відповіді я використовував точки даних, як упорядковані точки даних тощо. Це стосується дискретних розподілів, але концепція може бути узагальнена для безперервних розподілів.

R2R2


3
R2R2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.