Як визначити, чи має вісь y починатись з нуля?


45

Одним із поширених способів "лежати з даними" є використання шкали по осі y, завдяки якій здається, що зміни є більш істотними, ніж вони є насправді.

Переглядаючи наукові публікації чи доповіді в лабораторіях, мене часто засмучує цей "гріх візуалізації даних" (який, на мою думку, автори вчиняють ненавмисно, але все ж призводить до оманливого викладу.)

Однак "завжди запускати вісь y з нуля" не є жорстким правилом. Наприклад, Едвард Туфте вказує, що в часових рядах базова лінія не обов'язково дорівнює нулю:

Загалом у часових рядах використовуйте базову лінію, яка показує дані не нульовою точкою. Якщо нульова точка розумно виникає при побудові даних, добре. Але не витрачайте багато порожнього вертикального простору, намагаючись досягти нульової точки ціною приховування того, що відбувається в самій лінії даних. (Книга "Як зв'язатись зі статистикою" в цьому питанні помилкова.)

Для прикладу, будь-де, будь-яка велика науково-дослідна публікація, відсутня нульові бали у часових рядах. Вчені хочуть показати свої дані, не нульові.

Прагнення контекстуалізувати дані є хорошим, але контекст не виникає з порожнього вертикального простору, що доходить до нуля, числа, яке навіть не зустрічається у великій кількості наборів даних. Натомість для контексту показуйте більше даних по горизонталі!

Я хочу вказати на оманливі виклади у статтях, які я рецензую, але я не хочу бути пуристом з нуля у вісі.

Чи є вказівки, які стосуються того, коли запустити вісь y на нуль, а коли це непотрібно та / або недоцільно? (Особливо в контексті академічної роботи.)


3
Я думаю, чи включати (не включаючи) 0 потенційно вводити в оману, критично залежить від розповіді, що розповідається.
gung - Відновіть Моніку

2
У розмові фраза "зверніть увагу на сильно придушений нуль" або подібне може бути використана для доведення чесності до потенційно оманливої ​​фігури. Мені це не подобається в друкованому матеріалі, але в дрібці ви можете використовувати його і там.
dmckee

Щоб уникнути всього цього, я використовую боксерські машини, коли це можливо. Немає необхідності обчислювати засоби та смужки помилок, і вона заповнена цінною інформацією (наприклад, розповсюдженням даних, розповсюдженням, перекосом, діапазоном) все в одному сюжеті. Крім того, ви показуєте необроблені дані.
Стефан

Сюжети @Stefan Box дійсно можуть бути корисними. Однак дивно, що навіть деякі підручники пояснюють ANOVA, а потім показують графіки вікон. З цією метою засоби, якщо не смужки помилок, безумовно, є актуальними і повинні бути інформативними. Залежно від сорту, багато ділянок коробки виконують дуже погану роботу із відображенням необроблених даних, оскільки вони просто узагальнюють їх. Але є вдосконалення, які допомагають, наприклад, квантильні графіки. Однак у цьому контексті зауважте, що показ засобів та смужок помилок жодним чином не зобов’язує вас показувати якщо це знаходиться поза діапазоном даних. y=0
Нік Кокс

@NickCox дякую за ваш коментар! Я погоджуюсь, що після того, як ANOVA було зроблено, показ засобів та панелей помилок має більше сенсу. Однак перед тим, як проводити будь-які аналізи, я вважаю, що бокс-платівки є більш інформативними та дають інформацію про те, як виглядають ваші дані та чи може бути обрана ANOVA чи ні, чи ні. "Брехня з даними" може вже виникати, якщо, наприклад, вибираються параметричні тести, але дані не відповідають необхідним припущенням. Отже, мені, як читачеві наукових досліджень, завжди подобається бачити кадри, щоб скласти власну думку щодо представлених результатів.
Стефан

Відповіді:


40
  • Не використовуйте простір у графіку жодним чином, що не допомагає зрозуміти. Місце для відображення даних потрібно!

  • Використовуйте свої наукові (інженерні, медичні, соціальні, ділові, ...) судження, а також статистичні судження. (Якщо ви не клієнт чи замовник, поговоріть з кимось у цій галузі, щоб отримати уявлення про те, що цікаво чи важливо, бажано тим, хто здає аналіз.)

  • Показати нуль на осі , якщо порівнювати з нулем грають центральну роль в проблемі, або навіть якийсь - то інтерес.y

Це три простих правила. (Ніщо не виключає напруги між ними при нагоді.)

Ось простий приклад, але всі три моменти виникають: Ви вимірюєте температуру тіла пацієнта у Цельсія, або у Фаренгейті, або навіть у кельвіні: прийміть свій вибір. У чому сенсі корисно чи навіть логічно наполягати на показ нульових температур? Інакше важлива, навіть медична чи фізіологічно важлива, інформація буде затемнена.

Ось справжня історія з презентації. Дослідник показав дані про співвідношення статей для різних штатів та союзних територій Індії. Графіка являла собою діаграму з усіма смугами, починаючи з нуля. Усі бруски були близькими до однакової довжини, незважаючи на значні зміни. Це було правильно, але цікава історія полягала в тому, що області були різними, незважаючи на схожість, не те, що вони були схожі, незважаючи на відмінності. Я припустив, що співвідношення чоловіків і жінок (1 або 100 жінок / 100 чоловіків) було набагато більш природним орієнтиром. (Я також був би відкритий для використання якогось загального рівня, наприклад, національного середнього рівня, як еталону.) Навіть деякі статистичні люди, які почули цю маленьку історію, іноді відповіли: "Ні; бари завжди повинні починатися з нуля". Для мене це не краще, ніж неактуальна догма в такому випадку.

Згадування смугових діаграм вказує на те, що тип графа, який використовується, також важливий. Припустимо, для температури тіла діапазон осі вибирається від 35 до 40 C для зручності, оскільки включає всі дані, так що вісь "починається" з 35. Очевидно, що смуги, починаючи з 35, були б поганими. дані. Але тут проблемою буде невідповідний вибір елемента графіка, а не погано вибраний діапазон осей.yy

Поширений різновид сюжету, особливо це видається в деяких біологічних та медичних науках, показує засоби або інші резюме товстими брусками, що починаються з нуля і стандартні помилки або інтервали на основі стандартного відхилення, що вказують на невизначеність тонкими смугами. Такі ділянки детонатора чи динаміту, як їх називали ті, хто не схвалює, можуть бути популярними частково через вираз, який завжди повинен показувати нуль. Чистий ефект полягає в тому, щоб підкреслити порівняння з нулем, які часто не мають інтересу чи корисності.

Деякі люди хочуть показати нуль, але також додати перерву шкали, щоб показати, що масштаб перерваний. Змінюються моди і змінюються технології. Десятиліття тому, коли дослідники малювали власні графіки або делегували завдання технікам, було простіше просити, щоб це було зроблено вручну. Зараз графічні програми часто не підтримують масштабних перерв, що, на мою думку, не є втратою. Навіть якщо вони є, це суєтне доповнення, яке може витратити помірну частину площі графіки.

Зауважте, що ніхто не наполягає на тому самому правилі для осі . Чому ні? Якщо ви демонструєте кліматичні чи економічні коливання протягом останнього століття або близько того, було б дивно сказати, що масштаб повинен починатися на межі BC / CE або будь-якого іншого походження.x

Звичайно, існує нульове правило, яке застосовується крім трьох згаданих.

  • Що б ви не робили, будьте дуже зрозумілі. Позначте свої оси послідовно та інформативно. Тоді довіряйте, що уважні читачі будуть дивитись, щоб побачити, що ви зробили.

Таким чином, з цього приводу я сильно погоджуюся з Едвардом Туфте, і я не згоден з Даррелом Хаффом.

EDIT 9 травня 2016 року:

замість того, щоб намагатися незмінно включати 0-базову лінію у всі свої діаграми, використовуйте натомість логічні та значущі базові лінії

Каїр, А. 2016. Істинне мистецтво: дані, графіки та карти для спілкування. Сан-Франциско, Каліфорнія: Нові вершники, с.136.


7
Як осторонь цього: я думаю, що люди більш схильні до догматичного дотримування "старту з нуля", коли дані представлені брусками, виходячи з того, що бари показують площу та площу, що вводять в оману, якщо вона не починається з нуля. На крапковому сюжеті Клівленда - який у будь-якому разі є більш підходящою візуалізацією - здається, що такого важкого аргументу не можна починати з нуля, і люди здаються більш готовими бути гнучкими щодо того, з чого вони починаються.
Срібна рибка

4
Чудова відповідь. Я поставив це запитання в контексті перегляду статті, яка послідовно використовувала невідповідні діапазони осей (підкреслюючи незначні відмінності в даних). Ця відповідь дала мені зрозуміти, що мене дуже засмучувало відсутність (статистичного та інженерного) судження щодо розуміння та інтерпретації даних - набагато конструктивніше, що можна коментувати в огляді, ніж скаржитися на діапазон осей.
ff524

4
Правило про початок осі на нулі має сенс думати лише про постійні змінні, які є співвідношенням, тому нуль має реальне значення. Вага 0 - це не вага. І т. Д. Але температури в C або F використовують довільні значення для нуля, тому немає сенсу навіть думати про запуск осі там.
Харві Мотульський

2
Штрихи, що починаються від 0 C, показують температуру над і нижче точки замерзання води. Я бачив, що робиться в кліматології, і це має фізичний сенс. Звичайно, я погоджуюсь з більш загальним моментом, що нуль є природним для масштабів співвідношення, а довільне в іншому випадку.
Нік Кокс

3
Приємно, але я хотів би зазначити, що точка «судження» залежить від аудиторії (аудиторія завжди має значення!). Технічні аудиторії прочитають вісь і зрозуміють, що це стосується. Деяка частина міряної сукупності рішуче ігнорує мітки осей та зробить висновки з форми графіка за потенційно неправильних припущень щодо масштабу. Якщо графік призначений для широкої аудиторії, то ви повинні врахувати це, на вашу думку.
dmckee
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.