Представлення експериментальних даних


9

Я маю суперечку зі своїм радником щодо візуалізації даних. Він стверджує, що, представляючи експериментальні результати, значення слід будувати лише з " маркерами ", як це представлено нижче на зображенні. Хоча криві повинні представляти лише " модель "

Markers.png

Я, з іншого боку, вважаю, що крива у багатьох випадках непотрібна для полегшення читабельності, як показано на другому зображенні нижче:

Lines.png

Я помиляюся чи мій професор? Якщо випадок пізніше, то як мені обійтись, щоб пояснити йому це.


5
Бали - дані. Криві, які підходять до точок, не є даними. Тож якщо ваш намір полягає в тому, щоб показати дані ....

3
Як говорить ДжеффЕ. Якщо бути ще більш чітким: криві, які ви накреслили, є моделлю, оскільки ви набували певної форми під час їх малювання, і ви мали певні міркування щодо цієї форми. Це міркування засноване на певній моделі.
Герріт

1
Я надіслав запит на міграцію; це дійсно належить до перекреслених, не тут.

2
Я думаю, що це може бути темою на CrossValided, але це, безумовно, також тут . Міграцію слід розглядати лише в тому випадку, якщо це не тематично, тут є питання, які були б тематичними на двох сайтах, це нормально). Це справжнє запитання з валідними відповідями, воно, безумовно, актуально для багатьох науковців.

2
Ваш другий графік сумнівний. Якщо ви з'єднали точки вгору прямими лініями, ви (можливо) маєте аргумент для наочності. Але використовуючи криву, ви стверджуєте, що пік синьої лінії знаходиться на рівні 740 °, а фіолетовий мінімум - 840 °, хоча у вас немає експериментальних даних за цих температур. Введення min / max поза вимірюваними даними - червоний прапор.
Даррен Кук

Відповіді:


10

Мені подобається це правило:

Якщо вам потрібна лінія для орієнтування на око (тобто, щоб показати тенденцію, яка без лінії не була б видно настільки чітко), вам не слід ставити лінію.

Люди надзвичайно добре розпізнають закономірності (ми скоріше на стороні бачити тенденції, які не існують, ніж пропускають існуючу тенденцію). Якщо ми не зможемо отримати тенденцію без лінії, ми можемо бути впевнені, що жодна тенденція не може бути остаточно показана в наборі даних.

Якщо говорити про другий графік, то єдиною ознакою невизначеності ваших вимірювальних точок є два червоних квадрата С: O 1,2 при 700 ° C. Поширення цих двох засобів означає, що я б не прийняв, наприклад

  • що взагалі існує тенденція щодо C: O 1.2
  • що є різниця між 2,0 та 3,6
  • і напевно вигнуті моделі переповнюють дані.

без дуже вагомих причин. Це, однак, знову стане моделлю.


редагувати: відповісти на коментар Івана:

Я хімік, і я б сказав, що вимірювання не відбувається без помилок - те, що прийнятно, залежатиме від експерименту та інструменту.

Ця відповідь не проти показу експериментальної помилки, але все для показу та врахування її.

Ідея мого міркування полягає в тому, що графік показує рівно одне повторне вимірювання, тож коли дискусія полягає в тому, наскільки складна модель повинна відповідати (тобто горизонтальна лінія, пряма, квадратична, ...), це може дати нам уявлення про вимірювання помилка. У вашому випадку це означає, що ви б не змогли помістити значущу квадратичну (сплайну), навіть якби у вас була жорстка модель (наприклад, термодинамічне або кінетичне рівняння), що припускає, що вона повинна бути квадратичною - у вас просто не вистачає даних .

Для ілюстрації цього:

df <-data.frame (T      =         c ( 700,  700,  800, 900,  700, 800, 900, 700, 800, 900), 
                 C.to.O = factor (c ( 1.2,  1.2,  1.2, 1.2,  2  , 2  , 2  , 3.6, 3.6, 3.6)),
                 tar    =         c (21.5, 18.5, 19.5, 19,  15.5, 15 , 6  , 16.5, 9, 9))

Ось лінійна відповідність разом із 95% довірчим інтервалом для кожного зі співвідношень C: O:

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm") + 
    facet_wrap (~C.to.O)

лінійна модель

Зауважимо, що для більш високих співвідношень C: O інтервал довіри коливається значно нижче 0. Це означає, що неявні припущення лінійної моделі неправильні. Однак можна зробити висновок, що лінійні моделі для більш високого вмісту C: O вже є надмірними.

Отже, відступивши назад і встановивши лише постійне значення (тобто відсутність T-залежності):

ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () + 
    stat_smooth (method = "lm", formula = y ~ 1) + 
    facet_wrap (~C.to.O) 

відсутність T-залежності

Доповненням є моделювання відсутності залежності від C: O:

ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) + 
    stat_smooth (method = "lm", formula = y ~ x) 

немає C: O залежність

Проте інтервал довіри охоплював би горизонтальні або навіть трохи висхідні лінії.

Ви можете продовжити і спробувати, наприклад, дозволяючи різними зміщеннями для трьох співвідношень C: O, але використовуючи рівні нахили.

Однак уже декілька вимірювань кардинально покращить ситуацію - зауважте, наскільки вужчими є довірчі інтервали для C: O = 1: 1, де у вас є 4 вимірювання замість лише 3.

Висновок: якщо порівнювати мої моменти, до висновків яких я би поставився скептично, вони занадто сильно читали декілька доступних моментів!


ви дуже добре вказуєте. Однак в техніці експериментальна помилка (невизначеність) дуже поширена, і передбачається, що відносна похибка 3 ~ 5% є прийнятною. Але мені потрібно показати результати MAX, MIN та AVG. Тож у моєму випадку маркери - це кінцівки, а лінія - середня.
Іван П.

дуже хороший і надзвичайно корисний приклад (ти мене зацікавив R). Тож, звичайно, правильне - це отримати більше точок даних.
Іван П.

12

Як говорить ДжеффЕ: бали - це дані . Загалом, добре уникати додавання кривих якомога більше. Однією з причин додавання кривої є те, що вона робить графік приємнішим для очей, роблячи точки і тенденцію між точками більш читабельною. Це особливо вірно, якщо у вас мало точок даних.

Однак є й інші способи відображення розріджених даних , які можуть бути кращими за схему розкидання. Одна з можливостей - це діаграма, де різні бари набагато помітніші, ніж ваші одиничні точки. Кольоровий код (подібний до того, який ви вже маєте на малюнку) допоможе побачити тенденції в кожній серії даних (або серія даних може бути розділена і представлена ​​поруч із меншими індивідуальними діаграмами).

Нарешті, якщо ви дійсно хочете додати якусь лінію між вашими символами, є два випадки:

  1. Якщо ви очікуєте, що певна модель буде дійсною для ваших даних (лінійна, гармонічна, будь-яка інша), вам слід встановити свої дані про модель, пояснити модель у тексті та прокоментувати угоду між даними та моделлю.

  2. Якщо у вас немає розумної моделі для даних, ви не повинні включати додаткові припущення у свій графік. Зокрема, це означає, що ви не повинні включати будь-який тип ліній між точками, крім прямих. Приємна інтерполяція "сплайн-підходу", яку може зробити Excel (та інше програмне забезпечення) - брехня . Немає вагомих причин, щоб ваші дані слідували саме цій математичній моделі, тому слід дотримуватися сегментів прямої лінії.

    Крім того, у цьому випадку може бути непогано додати декларацію про відмову десь у підписі фігури, як-от "рядки є лише напрямними для очей".


2
Це відмінна порада мінус коментар про те, що бари є більш доречними. Для подібних обговорень, пов’язаних із цим, див. Альтернативна графіка для графіків "обробляти смугу" . Уявіть сюжет, що перерахований ОП як кластеризовану діаграму, було б важко уявити тенденцію в діапазонах темпатури. Спосіб зробити точки легше помітними - це тремтіння їх по осі x, і робота Клівленда запропонувала б нам в будь-якому разі віддавати перевагу точкам.
Andy W

@Andy W, що ти маєш на увазі під "тремтінням їх по осі x"?
Іван П.

1
@IvanP., Я маю на увазі замість того, щоб точки, закріплені за цим конкретним значенням на абсцисі, переміщувати їх вправо або вліво, щоб точки не покривали одна одну. З решти графіка повинно бути зрозуміло, що вони дійсно посилаються на точні значення для груп на осі x, і незначне тремтіння не повинно впливати на візуалізацію тренду між величинами.
Andy W

6

1 - Ваш професор робить дійсну думку.

2-Ваш сюжет, безумовно, не збільшує читабельність IMHO.

3 - Наскільки я розумію, це не правильний форум, щоб задавати подібне запитання справді, і вам слід задавати його на перехресну перевірку.


Мені цікаво знати, де проблема в читанні, і будь-які пропозиції щодо вдосконалення дуже вітаються
Іван П.

1

Іноді приєднання пунктів має сенс, особливо якщо вони дуже щільні.

І тоді може бути сенс інтерполювати (наприклад, зі сплайном ). Однак, якщо це щось більш досконале, ніж сплайн порядку (для якого явно очевидно, що це лише приєднання балів), вам потрібно згадати про це.

Однак для випадку декількох балів, або десятка балів, це не так. Просто залиште точки, як вони є, з маркерами. Якщо ви хочете підігнати лінію (або іншу криву), це модель. Ви можете додати його, але бути явним - наприклад, "рядок представляє лінійну регресію придатної".


0

Я думаю, що є випадки, коли хтось не пропонує явної моделі, але потребує якихось посібників для очей. Моє правило тоді уникати кривих, як чума, і дотримуватися кусково прямих ліній між послідовними точками серії.

Для одного це припущення є більш очевидним для читачів. Також пикантність добре захищає читачів від припущення тенденцій, не підтримуваних даними. Якщо це взагалі, це лише підкреслює шум та виснаження.

Те, про що я насторожено - це помірне (не жорстке, не явне) використання сплайнів, квадратики, регресії тощо. Дуже часто це робить здається, що є тенденції, коли таких немає. Хорошим прикладом зловживань є криві, намальовані @Ivan. З трьома точками даних я не думаю, що будь-які максимуми або мінімуми в базовій моделі є очевидними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.