Мені подобається це правило:
Якщо вам потрібна лінія для орієнтування на око (тобто, щоб показати тенденцію, яка без лінії не була б видно настільки чітко), вам не слід ставити лінію.
Люди надзвичайно добре розпізнають закономірності (ми скоріше на стороні бачити тенденції, які не існують, ніж пропускають існуючу тенденцію). Якщо ми не зможемо отримати тенденцію без лінії, ми можемо бути впевнені, що жодна тенденція не може бути остаточно показана в наборі даних.
Якщо говорити про другий графік, то єдиною ознакою невизначеності ваших вимірювальних точок є два червоних квадрата С: O 1,2 при 700 ° C. Поширення цих двох засобів означає, що я б не прийняв, наприклад
- що взагалі існує тенденція щодо C: O 1.2
- що є різниця між 2,0 та 3,6
- і напевно вигнуті моделі переповнюють дані.
без дуже вагомих причин. Це, однак, знову стане моделлю.
редагувати: відповісти на коментар Івана:
Я хімік, і я б сказав, що вимірювання не відбувається без помилок - те, що прийнятно, залежатиме від експерименту та інструменту.
Ця відповідь не проти показу експериментальної помилки, але все для показу та врахування її.
Ідея мого міркування полягає в тому, що графік показує рівно одне повторне вимірювання, тож коли дискусія полягає в тому, наскільки складна модель повинна відповідати (тобто горизонтальна лінія, пряма, квадратична, ...), це може дати нам уявлення про вимірювання помилка. У вашому випадку це означає, що ви б не змогли помістити значущу квадратичну (сплайну), навіть якби у вас була жорстка модель (наприклад, термодинамічне або кінетичне рівняння), що припускає, що вона повинна бути квадратичною - у вас просто не вистачає даних .
Для ілюстрації цього:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Ось лінійна відповідність разом із 95% довірчим інтервалом для кожного зі співвідношень C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Зауважимо, що для більш високих співвідношень C: O інтервал довіри коливається значно нижче 0. Це означає, що неявні припущення лінійної моделі неправильні. Однак можна зробити висновок, що лінійні моделі для більш високого вмісту C: O вже є надмірними.
Отже, відступивши назад і встановивши лише постійне значення (тобто відсутність T-залежності):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Доповненням є моделювання відсутності залежності від C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Проте інтервал довіри охоплював би горизонтальні або навіть трохи висхідні лінії.
Ви можете продовжити і спробувати, наприклад, дозволяючи різними зміщеннями для трьох співвідношень C: O, але використовуючи рівні нахили.
Однак уже декілька вимірювань кардинально покращить ситуацію - зауважте, наскільки вужчими є довірчі інтервали для C: O = 1: 1, де у вас є 4 вимірювання замість лише 3.
Висновок: якщо порівнювати мої моменти, до висновків яких я би поставився скептично, вони занадто сильно читали декілька доступних моментів!