Як інтерпретувати нарізки графіків


11

Роблячи деякий EDA, я вирішив використати графік коробки, щоб проілюструвати різницю між двома рівнями фактора.

Те, як ggplot надав графік коробки, було задовільним, але трохи спрощеним (перший сюжет нижче). Під час дослідження особливостей коробкових сюжетів я почав експериментувати з виїмками.

Я розумію, що на виїмці відображається показник ІК навколо медіани, і якщо два виїмки на ящиках не перетинаються, є "вагомі докази" - на рівні 95% впевненості - що медіани відрізняються.

У моєму випадку (другий сюжет), виїмки значимо не перетинаються. Але чому дно коробки праворуч набуває такої дивної форми?

Нанесення одних і тих же даних на скрипковому сюжеті не вказувало нічого незвичного щодо щільності ймовірності відповідної скрипки.

фіг.1 коробчастий

рис.2 зубчастою коробкою


1
У своєму ggplot-коді слід використовувати fill = factor (am), оскільки в даний час am використовується як числова змінна.
rnso

Це чудове місце @rnso
RDJ

Чи може хтось розмістити оригінальні дані? Я здогадуюсь, вони зі стандартної пісочної коробки для ggplot2. Мені подобається ідея побудувати окремі точки даних, але це засмутило те, що точки в темному полі робляться невидимими.
Нік Кокс

Відповіді:


18

У моєму випадку (другий сюжет), виїмки значимо не перетинаються. Але чому дно коробки праворуч набуває такої дивної форми? Як я це поясню?

Це вказує, що 25-й перцентиль становить приблизно 21, 75-й перцентиль - приблизно 30,5. А нижня і верхня межі надрізу - близько 18 і 27.

Поширеною причиною є те, що ваш розподіл перекошений або розмір вибірки низький. Межа виїмки заснована на:

мегiан±1.57×ЯQRн

Якщо відстань між медіаною та 25-м перцентилем та відстань між медіаною та 75-м перцентилем будуть надзвичайно різними (як у правій частині) та / або розмір вибірки невеликий, виїмка буде ширшою. Якщо вона досить широка, що межа виїмки є більш екстремальним, ніж 25-й і 75-й відсотки (він же, коробка), то нарізаний графічний графік буде відображати цю форму "зсередини".


1
Дякую велике за ваше детальне пояснення. Дозвольте запитати, чому нижня і верхня межі виїмки становить приблизно 17 і 24, а не приблизно 18 і 27 (праворуч)
Денис

@Denis, Дякую, що це зробив. Я це переглянув.
Penguin_Knight
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.