Як представити сюжет коробки з екстремальним зовнішнім виглядом?


17

Я можу скористатись деякими вказівками щодо представлення деяких даних.

Цей перший графік являє собою порівняльний випадок для цитокіну IL-10. Я вручну встановив вісь y, щоб включати 99% даних.

IL-10 з ручною віссю Y

Я встановив це вручну, тому що група випадків має надзвичайний зовнішній вигляд. З стороннім

Мої співробітники вагаються з видаленням зовнішнього набору даних. Я з цим все в порядку, але вони вважають за краще. Це було б очевидним рішенням. Але якщо я збираюсь зберігати всі дані, а не видаляти цю сторонність, як я можу представити цю скриньку оптимально? Розділена вісь? Чи прийнятно використовувати лише перший графік та зазначити, що він був побудований для включення всіх даних? (Цей варіант вважає мене нечесним). Будь-яка порада була б чудовою.


5
Чому б не представити обидва сюжети?
Олексій

Відповіді:


23

Я б сказав, що з такими даними вам дійсно потрібно показувати результати в трансформованому масштабі. Це перший імператив і важливіше питання, ніж саме те, як намалювати сюжет коробки.

Але я повторюю Френку Харреллу, закликаючи щось більш інформативне, ніж мінімальний сюжетний сюжет, навіть із визначеними крайніми моментами. У вас є достатньо місця, щоб показати набагато більше інформації. Ось один із багатьох прикладів, гібридна коробка та квантильний сюжет. Як і у ваших даних, дві групи порівнюються.

введіть тут опис зображення

Я візьму ці два пункти по одному і скажу більше.

Трансформована шкала

У найпростішому випадку всі ваші значення можуть бути позитивними, і вам слід спочатку спробувати скористатися логарифмічною шкалою.

Якщо у вас є точні нулі, квадратна коренева або кубикова коренева шкала все одно покращить надзвичайну косисть. Деякі люди задоволені журналом (значення + константа), де константа найчастіше 1, як спосіб подолання нулів.

Наслідки для графічних графіків використання трансформованої шкали є тонкими.

Якщо ви використовуєте загальну умову Тукі про показ індивідуально всіх точок, що перевищують верхній квартал + 1,5 IQR або нижній квартіль - 1,5 IQR, то, певно, ці межі слід розраховувати за перетвореною шкалою. Це не те саме, що обчислювати ці межі за початковою шкалою, а потім перетворювати.

Натомість я б підтримав те, що, як видається, залишається умовою меншості щодо вибору квантилів для кінців вусів. Однією з декількох переваг цього є те, що перетворення квантиля = квантил перетворення, принаймні досить близько для графічних цілей у більшості випадків. (Дрібний шрифт - це кожен раз, коли квантили обчислюються лінійною інтерполяцією між суміжними статистичними даними.)

Цей кількісний конвент був досить чітко запропонований Клівлендом (1985). Для запису, в географії та кліматології використовувались (наприклад) Меттьюс (1936) та Гроув (1956), в розділі "напівзруйновані" Меттьюс (1936) та Гроув (1956). назва "дисперсійні діаграми".

Більше, ніж коробкові сюжети

Сюжети коробки були винайдені Тукі близько 1970 року і найбільш помітно пропагувалися в його книзі 1977 року. Значна його мета полягала у просуванні графіків, які можна було швидко намалювати за допомогою ручки (циліндра) та паперу для неформальної розвідки. Він також пропонував способи ідентифікації можливих людей, що пережили люди. Це було чудово, але зараз у нас є доступ до комп'ютерів, не боляче малювати графіки, що показують, якщо не всі дані, то принаймні набагато детальніше. Підсумкова роль сюжетних графіків є цінною, але графік може відображати і тонку структуру, лише на випадок, якщо це цікаво чи важливо. (А те, що вважають дослідники нецікавим чи неважливим, може бути більш вражаючим для їхніх читачів.)

Є багато місця для ввічливої ​​незгоди щодо того, що саме працює найкраще, але, на мій погляд, голі сюжети були досить перепроданими.

Користувачі статистики можуть дізнатися більше про програму, яка намалювала фігуру в цій публікації Statalist . Користувачі іншого програмного забезпечення не повинні мати труднощів зробити щось гарне чи краще (інакше навіщо використовувати це програмне забезпечення?).

Клівленд, WS 1985. Елементи графічних даних. Монтерей, Каліфорнія: Уедсворт.

Grove, AT 1956. Ерозія ґрунту в Нігерії. Географічні нариси британських тропічних земель у справі Steel, RW and Fisher, CA (Eds) . Лондон: Джордж Філіп, 79-111.

Matthews, HA 1936. Новий погляд на деякі знайомі індійські опади. Шотландський географічний журнал 52: 84-97.

Tukey, JW 1977. Дослідницький аналіз даних. Редінг, MA: Аддісон-Веслі.


1
Я ніколи раніше не бачив такого поєднання сюжетних сюжетів та ECDF. Дійсно здорово! Що ви думаєте про накладення двох ECDF на окрему панель?
Френк Харрелл

2
@Frank Harrell Дякую Накладення - також хороша ідея. Див., Наприклад, stata-journal.com/sjpdf.html?articlenum=gr0018 для деяких прикладів моєї роботи.
Нік Кокс

14

Нічого не відволікаючи від чудової відповіді Ніка, який, на мою думку, варто вартувати галочку та нагороду - але я хотів вивчити деякі можливості.

Маючи такі сильно перекошені дані на декілька порядків, графік у лог-шкалі часто досить показовий; зауважте, що у вас ще можуть бути галочки та мітки галочок у оригінальних значеннях. (Я погоджуюсь з пунктами Ніка, що стосуються трансформацій, тому не буду далі про це розширюватися.)

Ще один варіант, крім трансформації, - це зробити щось на кшталт вашого другого сюжету, але включити вказівку на всі значення, не нанесені на графіку:

  введіть тут опис зображення

Таким чином , ви не видаляючи випадають, просто відображати їх по- різному.

Однак я б приєднався до Френка і Ніка, пропонуючи використовувати більш інформативний дисплей, ніж звичайний боксер - комбінація коробки з квантильним сюжетом у посту Ніка здається особливо хорошим поняттям, хоча можна скласти квантильний сюжет злегка над (або під , як тут) відповідне поле замість нього:

  введіть тут опис зображення

Якщо ви не робите щось подібне (просто скажімо, звичайно кажучи), я б запропонував значно більш вузькі коробки.


3
Привабливі квантильні та коробкові сюжети теж привабливі. Це підкреслює, що графік коробки - це зменшення квантильного сюжету, хоча для деяких ділянок коробки може здатися надмірним. Сильний акцент на взаємозв'язку двох графіків див., Наприклад, Парзен, Е. 1979. Непараметричне статистичне моделювання даних. Журнал Американської статистичної асоціації 74: 105-121
Нік Кокс

У вас є набір даних OP? Або ви чистите графік / підробляєте його?
Нік Кокс

2
@ Nick Просто підробляють це, в основному; Я ефективно скребив крайні точки (просто вручну їх було так мало), а потім генерував значення нижче верхніх квартілів шляхом відбору проб з 3 уніформ між відомими значеннями (3 квартілі і мінімум), а також між верхніми квартилами і кінцем верхніх вусів з експонентами, а потім додав крайні точки в (просто так, щоб мої боксерські карти виглядали схоже). Принаймні, в цьому суть ідеї. Крайні точки не будуть точними, тому надруковані значення на моєму сюжеті більше схожі на приклади.
Glen_b -Встановити Моніку

@Glen_b Я можу задати окреме питання, якщо ви віддаєте перевагу, але який метод ви використовували для накладання квантильної ділянки на boxplot?
Таврок

@Tavrock Минуло два з половиною роки, як я це написав, тому я здогадуюсь. Очевидно, що потрібно зробити, це заклик pointsдо відображення кількісних значень (це схоже на щось по лінії xs=sort(x); points(ppoints(xs),xs)після Boxplot, але при ретельному огляді бали знаходяться нижче boxplot, тому, можливо, це було змова, тоді boxplot з add = TRUE або це можливо, це було боксерство, то пункти, то боксер на верхній частині ... можливо
Glen_b -Встановити Моніку

5

Я вважаю за краще розширені сюжетні коробки або скрипки, оскільки вони містять набагато більше інформації. Я масштабував розширені графіки коробки до 0,01 та 0,99 квантових частин об'єднаних проб. Докладні відомості див. У розділі http://biostat.mc.vanderbilt.edu/wiki/pub/Main/StatGraphCourse/graphscourse.pdf .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.