Інтерпретація сюжету QQ


12

Розглянемо наступний код та вихід:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

введіть тут опис зображення

Схоже, що цей QQ-графік для log-normal майже такий самий, як QQ-графік для weibull. Як ми можемо їх розрізнити? Якщо точки також знаходяться в межах області, визначеної двома зовнішніми чорними лініями, чи це означає, що вони слідують зазначеному розподілу?


Я вважаю, ви використовуєте автомобільний пакет, чи не так? Якщо так, ви повинні включити вислів library(car)у свій код, щоб людям було легше дотримуватися. Загалом, ви також можете встановити насіння (наприклад, set.seed(1)), щоб зробити приклад відтворюваним, щоб кожен міг отримати абсолютно ті самі точки даних, які ви отримали, хоча це, мабуть, не так важливо.
gung - Відновіть Моніку

2
Це не буде працювати на моєму комп’ютері, як написано. Наприклад, qqPlot з автомобільного пакета хоче норми для нормальної, а для nnorm для log-normal. Що я пропускаю?
Том

2
@Том я помилився з приводу пакету. Очевидно, що це пакет якостіTools . Більше того, приклад, здається, береться звідси .
gung - Відновіть Моніку

Цікавою альтернативою є графік Каллена та Фрея, див. Stats.stackexchange.com/questions/243973/… для прикладу
kjetil b halvorsen

Відповіді:


12

Тут можна сказати кілька речей:

  1. форма CDF для log-нормальної є досить подібною до форми CDF Weibull, щоб зробити їх важче розрізнити, ніж рівень подібності між Weibull та іншими.
  2. зовнішні чорні лінії утворюють смугу довіри . Використання діапазону довіри для виводу є таким же, як і будь-яка інша стандартна форма статистичного висновку часто. Тобто, коли значення потрапляють у діапазон, ми не можемо відкинути нульову гіпотезу про те, що розміщений розподіл є правильним. Це не те саме, що говорити про те, що ми знаємо, що розміщений розподіл є правильним. (Зауважте, що це чудовий приклад того, що я обговорював в іншій відповіді тут про ситуацію, коли фішерська точка зору на тестування гіпотез була б кращою перед Нейманом-Пірсоном.)
  3. N тут лише 20.

Чи існують способи вивчення розподілів для малих розмірів вибірки?
протон

насправді здається, що точки лежать у смугах довіри для всіх розподілів. Тож ми не можемо розрізнити розподіли?
протон

1
н=205%

2
+1 на невеликий розмір вибірки. Використання 300 зразків допомогло б багато розрізнити речі. Протон: Ні, ви не можете дійсно розрізнити розподіли за невеликим зразком. Як ти міг? Це як спробувати визначити обличчя з 20 пікселями.
Уейн

3

Схоже, що цей QQ-графік для log-normal майже такий самий, як QQ-графік для weibull.

Так.

Як ми можемо їх розрізнити?

При такому розмірі вибірки ви, ймовірно, не можете.

Якщо точки також знаходяться в межах області, визначеної двома зовнішніми чорними лініями, чи це означає, що вони слідують зазначеному розподілу?

Ні. Це вказує лише на те, що ви не можете визначити, що розподіл даних відрізняється від цього. Це відсутність доказів різниці, а не доказ відсутності різниці.

Ви можете бути майже впевнені, що дані походять з розподілу, який не є жодним із розглянутих (чому це було б саме з будь-якого з них?).


Як і фразування: "Це відсутність доказів різниці, а не доказ відсутності різниці".
jlandercy
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.