Діаграма QQ не відповідає гістограмі


12

У мене є гістограма, щільність ядра та пристосований нормальний розподіл прибутку фінансових журналів, які перетворюються на втрати (знаки змінюються), і нормальний графік QQ цих даних:

http://tinypic.com/r/34ocwvr/6

Сюжет QQ чітко показує, що хвости неправильно підігнані. Але якщо я переглядаю гістограму та пристосований нормальний розподіл (синій), навіть значення близько 0,0 не відповідають правилам. Таким чином, графік QQ показує, що тільки хвостики не підібрані належним чином, але, очевидно, весь розподіл не підібраний правильно. Чому це не відображається в QQ сюжеті?


10
Синя крива зліва відповідає гіпотетичній лінії "найкраще підходить" праворуч. Рядок праворуч - це не найкраще підходить лінія: вона найкраще відповідає середнім значенням у розподілі. Якби ви встановили "криву дзвона" до середини двох третин гістограми, а не всієї справи, ця крива наблизилася б до піку і круто похилих сторін, але тоді було б далеко занадто низько біля плечей і хвостів. Саме так відображається і лінія на графіку qq: ці ділянки ідеально узгоджуються; саме підходи відрізняються.
whuber

Відповіді:


11

+1 до @NickSabbe, оскільки "сюжет просто говорить вам, що" щось не так "", що часто є кращим способом використання qq-сюжету (оскільки це може бути важко зрозуміти, як їх інтерпретувати). Можна навчитися інтерпретувати qq-сюжет, думаючи про те, як його зробити.

Ви б почали з сортування своїх даних, а потім порахували б свій шлях від мінімального значення, взявши кожне за рівний відсоток. Наприклад, якщо у вас було 20 точок даних, коли ви порахували перший (мінімум), ви б сказали собі: "Я нарахував 5% своїх даних". Ви б дотримувались цієї процедури, поки не дійшли до кінця, і тоді ви пройшли б 100% своїх даних. Ці відсоткові значення можуть потім порівнюватися з однаковими значеннями відсотків від відповідної теоретичної норми (тобто нормальної з тим же середнім і SD).

Коли ви перейдете до цього, ви побачите, що у вас виникають проблеми з останнім значенням, що становить 100%, тому що, коли ви пройшли 100% від теоретичної норми, ви знаходитесь у нескінченності. Ця проблема вирішується шляхом додавання невеликої константи до знаменника в кожній точці ваших даних, перш ніж обчислити відсотки. Типовим значенням було б додати 1 до знаменника; Наприклад, ви б назвали свою першу (з 20) точку даних 1 / (20 + 1) = 5%, а ваш останній буде 20 / (20 + 1) = 95%. Тепер, якщо ви побудуєте ці точки проти відповідної теоретичної норми, у вас буде pp-графік(для побудови ймовірностей щодо ймовірностей). Такий сюжет, швидше за все, покаже відхилення між вашим розподілом та нормальним у центрі розподілу. Це тому, що 68% нормального розподілу лежить в межах +/- 1 SD, тому pp-сюжети мають чудову роздільну здатність там і погану роздільну здатність в інших місцях. (Детальніше з цього приводу може допомогти прочитати мою відповідь тут: PP-сюжети проти QQ-сюжетів .)

Часто нас найбільше хвилює те, що відбувається в хвостах нашого розповсюдження. Щоб отримати кращу роздільну здатність там (і, таким чином, гіршу роздільну здатність в середині), ми можемо побудувати замість цього qq-графік . Ми робимо це, беручи наші набори ймовірностей і передаючи їх через обертання CDF звичайного розподілу (це як читати z-таблицю в задній частині статистичної книги назад - ви ймовірно читаєте і читаєте z- оцінка). Результатом цієї операції є два набори квантових елементів , які можна будувати однаково один проти одного.

@whuber має рацію, що опорна лінія будується після цього (як правило) шляхом знаходження найкращої лінії, що відповідає розміру, через середину 50% балів (тобто, від першого чверті до третього). Це робиться для полегшення читання сюжету. Використовуючи цей рядок, ви можете інтерпретувати сюжет як те, що показує, чи квантилі вашої дистрибуції прогресивно розходяться від справжнього нормального, коли ви рухаєтесь у хвости. (Зверніть увагу, що положення точок, розташованих далі від центру, насправді не залежать від тих, хто знаходиться ближче; тому той факт, що у вашій конкретній гістограмі хвости, схоже, збираються разом після того, як "плечі" відрізняються, не означає, що квантили тепер знову те саме.)

Ви можете інтерпретувати qq-графік аналітично, розглядаючи значення, прочитані з осей порівняння для заданої побудованої точки. Якщо дані були добре описані нормальним розподілом, значення повинні бути приблизно однаковими. Наприклад, візьміть крайню точку в самому крайньому лівому нижньому куті: її значення десь минуле , але його значення лише трохи минуле- , тому воно набагато далі, ніж воно повинно бути. Загалом, проста інтерпретація qq-сюжету полягає в тому, що якщо даний хвіст відкручується проти годинникової стрілки від опорної лінії, в цьому хвості вашого розподілу є більше даних, ніж в теоретичному нормалі, і якщо хвіст відкручується за годинниковою стрілкою є менш- 3 у - .2x3y.2дані в тому хвості вашого розповсюдження, ніж в теоретичному нормі. Іншими словами:

  • якщо обидва хвоста крутяться проти годинникової стрілки, у вас важкі хвости ( лептокуртоз ),
  • якщо обидва хвости крутяться за годинниковою стрілкою, у вас легкі хвости (платикуртоз),
  • якщо ваш правий хвіст скручується проти годинникової стрілки, а лівий хвіст скручується за годинниковою стрілкою, у вас правий косий край
  • якщо ваш лівий хвіст крутить проти годинникової стрілки, а правий хвіст крутить за годинниковою стрілкою, у вас лівий косий хід

Я вважаю такі рубрики менш задовільними. Одне полягає в тому, що вони не мають прямого зв’язку з принципами, що стоять за сюжетом: їх потрібно запам’ятовувати окремо (і їх можна повністю сплутати з допомогою несправної пам’яті). Іншим (у даному випадку) є те, що це занадто складно, щоб бути надійно корисним. Ще одне полягає в тому, що відсутність стандартизації в тому, як намальовані такі сюжети, може зробити цей метод неправильним при застосуванні до сюжету qq, зробленого за іншою процедурою. Але сюжетні інтерпретації qq легко інтерпретувати: дивіться мою спробу пояснення на півдорозі Quantdec.com/envstats/notes/class_03/probability.htm .
whuber

5

Простіше кажучи: QQ-графік показує рейтинг в емпіричному розподілі порівняно з очікуваним розподілом. У вашому випадку (а це насправді буває досить часто; завжди при симетричному розподілі) ранги поблизу середини будуть подібними між очікуваними та емпіричними, отже, QQ-сюжет близький до лінії.

Не так просто зрозуміти «дивні» спостереження, виходячи з їхньої позиції в QQ-графіці: сюжет просто говорить вам, що «щось не так», і якщо ви дізнаєтесь більше про дані / розподіли, ви можете дізнатися де проблеми.


1
Я б заперечував протилежний висновок, Нік: сюжет qq значно полегшує ідентифікацію та оцінку "дивних" результатів порівняно із сукупністю даних, тоді як гістограма має тенденцію приховувати багато, що виявляє qq-графік. Питання тут не в тому, чи близький сюжет qq до рядка: це стосується того, яку лінію було обрано програмним забезпеченням як орієнтир для сюжету! (Я підозрюю, що Rйого
вміст

1
@whuber: Особисто мені подобається бачити обидва, якщо це можливо (переважно, оскільки я "читаю" гістограми простіше, ніж QQ-графіки). Але ти маєш рацію, і я стою виправлений.
Нік Саббе

І ви цілком вірні, що дві техніки є взаємодоповнюючими. Наприклад, бімодальність, як правило, легше виявити (і кількісно визначити) в гістограмі, ніж у графіку qq. Я вважаю, що з практикою і гістограми, і графіки qq стають легкими для читання. Діаграми QQ можуть зайняти трохи більше часу лише тому, що вони не мають стандартної форми подання: завжди потрібно перевірити, яка вісь є значенням, а яка квантилом, а іноді квантили перетворюються на "еквівалентні значення" (замість стандартизовані).
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.