Переваги використання QQ-графіків над гістограмами


22

У цьому коментарі Нік Кокс написав:

Об’єднання в класи - це древній метод. Незважаючи на те, що гістограми можуть бути корисними, сучасне статистичне програмне забезпечення дозволяє легко, а також доцільно пристосувати розподіли до вихідних даних. Binning просто викидає деталі, які є вирішальними при визначенні того, які розподіли правдоподібні.

Контекст цього коментаря пропонує використовувати QQ-графіки як альтернативний засіб для оцінки придатності. Заява звучить дуже правдоподібно, але я хотів би знати про надійне посилання, що підтверджує це твердження. Чи є якийсь документ, який більш ретельно досліджує цей факт, крім простого "ну, це звучить очевидно"? Будь-які систематичні порівняння результатів чи подібних?

Я також хотів би побачити, наскільки ця користь QQ-графіків над гістограмами може бути розтягнута на додатки, відмінні від підгонки моделі. Відповіді на це запитання погоджуються з тим, що "QQ-сюжет […] просто говорить вам, що" щось не так ". Я думаю про використання їх як інструменту для виявлення структури спостережуваних даних порівняно з нульовою моделлю і цікавлюсь, чи існують встановлені процедури для використання QQ-графіків (або їх базових даних) не лише для виявлення, але й для опису не випадкових структура в спостережуваних даних. Тому посилання, що включають цей напрямок, були б особливо корисними.


4
stats.stackexchange.com/questions/51718/… вже відповідає на половину запитання, а саме чому найкраще уникати гістограм, незалежно від того, чим ви їх замінюєте.
Гала

Відповіді:


25

Канонічна папір тут була

Вілк, М. Б. та Р. Гнанадесікан. 1968. Вірогідні побудови графіків методів аналізу даних. Біометріка 55: 1-17

і він все ще відтворює близьке і повторне читання.

Чітке лікування з багатьма хорошими прикладами дав

Cleveland, WS 1993. Візуалізація даних. Саміт, Нью-Джерсі: Хобарт Прес.

і варто згадати більш вступне

Клівленд, WS 1994. Елементи графічних даних. Саміт, Нью-Джерсі: Хобарт Прес.

Інші тексти, що містять розумний вплив цього підходу, включають

Девісон, AC 2003. Статистичні моделі. Кембридж: Кембриджський університетський прес.

Райс, JA 2007. Математична статистика та аналіз даних. Бельмонт, Каліфорнія: Дюксбері.

Що осторонь, я нічого не знаю, що саме ви просите. Після того, як ви побачили сенс квантильно-квантильних сюжетів, докладно показавши, що гістограми є другорядною альтернативою, здається, ні цікавою, ні корисною, занадто схожою на зйомку риби в бочці.

Але я підсумую так:

  1. Бінінг пригнічує деталі, а деталі часто важливі. Це може стосуватися не тільки того, що відбувається в хвостах, але і того, що відбувається в середині. Наприклад, зернистість або мультимодальність може бути важливою, а також скосистість або вага хвоста.

  2. Бінінг вимагає прийняття рішень щодо походження та ширини відрізків, які можуть сильно вплинути на появу гістограми, тому важко зрозуміти, що є реальним та що є побічним ефектом вибору. Якщо ваше програмне забезпечення приймає ці рішення за вас, проблеми залишаються. (Наприклад, вибір контейнера для замовчування часто розроблений так, що ви не використовуєте "занадто багато бункерів", тобто з мотивом трохи згладжувати.

  3. Графічна та психологічна проблема порівняння двох гістограм є складнішою, ніж судження пристосованості набору точок до прямої.

[Додано 27 вересня 2017 року] 4. Квантильні сюжети можна змінювати дуже легко, якщо розглядати одну або кілька трансформованих шкал. Під перетворенням тут я маю на увазі нелінійне перетворення, а не наприклад масштабування максимумом або стандартизацію за (значення-середня) / С.Д. Якщо квантування - це лише статистика порядку, то все, що вам потрібно зробити, - це застосувати перетворення, як, наприклад, логарифм максимуму ідентично максимум логарифмів тощо. (Тривіально, зворотна відповідність змінює порядок.) Навіть якщо ви побудуєте обрані кванти, які базуються на статистиці двох порядків, зазвичай вони просто інтерполюються між двома вихідними значеннями даних, а ефект інтерполяції є тривіальним. На відміну від цього, гістограми в журналі або інші трансформовані шкали потребують свіжого рішення щодо походження та ширини контейнера, що не особливо складно, але це не банально. Майже те саме можна сказати про оцінку щільності як способу узагальнення розподілу.


8

Дивіться роботу Вільяма С. Клівленда.

Візуалізація даних - це, мабуть, найкраще єдине джерело, але також перегляньте його веб-сторінку , особливо бібліографію та сторінку для візуалізації даних (включаючи код S +, пристосований для використання у R).

У Клівленда багато причин, чому графіки QQ хороші і чому гістограми не такі гарні.



7

Після того, як ви навчитеся ними користуватися, графіки QQ дозволяють визначити косостість, важкі зусилля, загальну форму, піки тощо, ті самі види особливостей люди, як правило, використовують гістограми, щоб спробувати оцінити.

Оцінки щільності ядра або оцінювання щільності логічного сплайна можуть уникнути деяких проблем із гістограмами, на які Гала вказував у коментарях.

Розглянемо цей приклад із цього посилання:

Однак, якщо вам не пощастить, несподівану дискретність іноді можна пропустити за допомогою гістограми та навіть з оцінкою гладкої щільності (тому що вони згладжені, природно), але часто це буде очевидно на графіках QQ. Плавні оцінки щільності - якщо не лікуватися спеціально - також можуть мати проблеми з обмеженими змінними.

Гістограми та оцінки гладкої щільності покладаються на наближення даних - що може бути корисним - але також може ввести артефакти або дещо неправильно представлені речі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.