Дані про масштабування, які є різними порядками для побудови графіків


9

Переглядаючи такий набір даних:

 Date        Visits   Carts      carts       Orders
                      Created   converted    Created
2011-11-11    12277     161        9          36  
2011-11-12    11871     93         5          19    
2011-11-13    13072     107        8          8     
2011-11-14    13594     112        4          34    
2011-11-15    12741     129        8          43    
2011-11-16    15491     261        16         57 
2011-11-17    13418     186        17         42    

Мене попросили побудувати це на графіку, використовуючи дату X-осі та решту даних на Y-ось. Проблема полягає в тому, що масштаб даних різко відрізняється. де кількість відвідувань у тисячах, а створених замовлень - у низьких десятках, дані не відображаються на графіку.

Мені було цікаво, що робитиме статистик у цьому сценарії, я можу розділити Visits на 1000, а потім поставити опис (Visits (K)), але потім у мене виникають ті ж проблеми з Створеними візками, як і вони у сотнях, а все інше в низьких десятках.

Що робиться за цим сценарієм?

Відповіді:


14

На початку не є розумним побудувати лінійні діаграми у вигляді серії малих кратних, з різними масштабами для осі Y, але з вирівнюванням осі X (дати). введіть тут опис зображення

Я думаю, що це вдалий початок, оскільки він дозволяє вивчити необроблені дані та дозволяє порівняти тенденції між різними лінійними діаграмами. ІМО. Ви повинні спочатку переглянути необроблені дані, а потім подумати про перетворення або способи нормалізації діаграм, щоб вони були порівнянними після вивчення необроблених даних.

Як уже згадував Кінг, виявляється, що ваші змінні мають природне впорядкування на основі імен та чисел, і, вважаючи, що це доречно, я створив три нові змінні на основі відсотка, перетвореного в кожному стані. Нові змінні;

% Carts Created = Carts_Created/Visits
% Orders Created = Orders_Created/Carts_Created
% Carts Converted = Carts_Converted/Orders_Created

Створення відсотків - це спосіб наблизити ряд до загального масштабу, але навіть тоді розміщення всіх рядків на одній діаграмі (як показано нижче) все ще важко візуалізувати серію ефективно. Рівень та зміна створених замовлень та візків перетворювали карликові серії, ніж інші серії. Ви не бачите жодних змін у створених серіями візках у цій шкалі (і я підозрюю, що саме вас найбільше цікавлять). введіть тут опис зображення

Отже, знову ж таки, ІМО кращим способом дослідження цього є використання різних масштабів. Нижче наведена таблиця відсотків за допомогою різних масштабів.

введіть тут опис зображення

З цією графікою мені здається, що між серією немає ніякого реального змістовного співвідношення, але у вас є маса цікавих варіацій у межах кожної серії (особливо перерахована пропорція). Що з цим 2011-11-13? У вас була значно менша частка замовлень, але кожен із створених замовлень був перетвореним кошиком. Чи були у вас інші втручання, які могли б пояснити тенденції в відвідуваннях сайтів, або пропорції, або відсотках створених візків?

Це все лише дослідницький аналіз даних, і для того, щоб зробити будь-які інші кроки, мені знадобиться більше розуміння даних (хоча я сподіваюся, що це вдалий початок). Ви можете нормалізувати лінійні діаграми іншими способами, щоб мати змогу побудувати їх у порівнянному масштабі, але це складне завдання, і я думаю, що це можна зробити як ефективний вибір довільних масштабів на основі того, що є інформативним за даними, на відміну від вибору деяких схеми нормалізації за замовчуванням. Ще одне цікаве застосування для перегляду багатьох лінійних графіків одночасно - це горизонтальні графіки , але це більше для перегляду багатьох різних лінійних діаграм одночасно.


Дякую за деталі у вашій відповіді, я спочатку мав кілька діаграм. Мій начальник вирішив, що їм сподобаються всі серії на графіку (я думаю, що це, мабуть, занадто багато серій, але це не я, що це буду дивитись :)) Я думаю, що я збираюся розглянути питання про нормалізацію даних, можливо на 0 - 1. Вони хочуть використовувати графік лише для перегляду тенденцій, дані таблиці зазвичай відображаються під графіком.
Майк

@Mike, це розумний запит. Нормалізація серій не повинна змінювати тенденцію (лише рівень та варіативність кожної серії). Сподіваємось, ви отримаєте більш глибокі відповіді про те, як нормалізувати серію деякими ефективними, але все-таки значущими способами. Лише слово обережності, хоча, як правило, ви хочете побудувати лише 3-5 рядків на одному діаграмі, набагато більше дуже важко зробити всі ці порівняння (хоча невеликі кратні є вирішенням цієї проблеми).
Енді Ш

1
@Mike Так, у цьому випадку (просто візуалізація даних без чисел) ви можете просто висловити свої дані в масштабі min / max, як це робиться на паралельних екранах . Показати цифри під таблицею - також хороша ідея.
chl

1
Просто додаткова примітка щодо нормалізації до мінімуму / максимальної шкали, хоча, як запропонував @chl. Добре спершу побачити необроблені дані, якщо у вас є великий великий зовнішній вигляд, можливо, ви захочете врахувати, чи не включати це значення в процес нормалізації (хоча це повинно бути очевидним у випадку нормалізованого графіка, наприклад, якщо у вас є лінійний графік з одним високим / низьким значенням, а решта - плоским). Я думаю, що Michael Friendly погодився б із включенням таблиці також під графік.
Енді Ш

2

Ви можете мати дві окремі осі у, візити (k) та візки, створені в одній, інші 2 - в іншій (або залежно від вашої мети).

Це, безумовно, не елегантний метод, але я пам’ятаю, що робив це років тому, коли мені просто хотілося порівнювати тенденції за часом.

АБО

Ви можете просто побудувати графік зміни відсотка протягом часу, якщо він відповідає вашим цілям.


Я розглядав маршрут, який ви згадали, з двома різними вісьми Y, але мені це не сподобалось: якщо буде представлена ​​нова серія, яка не помістилася б на одній з двох осей Y, я, мабуть, застряг би. дякую за пропозицію, і, можливо, в інший раз я б розглядав це більше :)
Майк

А як щодо другої пропозиції щодо використання відсотків? тобто індексувати всі 100 на дату початку (або залежно від того, яка дата робить ваш графік гарним). Ви можете додати скільки завгодно нових серій!
Король

Це варіант, я зараз перебуваю в програмі Excel, намагаючись розібратися, як нормалізувати ці дані і чи вони працюють. якщо цього не вдасться, я підкажу ідею про відсоток :)
Майк

2

Врешті-решт я вирішив нормалізувати дані, розділивши кожне значення на максимальне значення, а потім помноживши на 100.

  1. Знайдіть максимальне значення:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    12277     161        9          36  
    2011-11-12    11871     93         5          19    
    2011-11-13    13072     107        8          8     
    2011-11-14    13594     112        4          34    
    2011-11-15    12741     129        8          43    
    2011-11-16    15491     261        16         57 
    2011-11-17    13418     186        17         42    
    
    maximum       15491     261        17         57
    
  2. Розділіть кожне число на максимальне, а потім помножте на 100:

      Date        Visits   Carts      carts       Orders
                          Created   converted    Created
    2011-11-11    79.25     61.68      52.94      63.15  
    2011-11-12    76.63     35.63      29.41      33.33    
    2011-11-13    84.38     40.99      47.05      14.03      
    2011-11-14    87.75     42.91      23.52      59.64    
    2011-11-15    82.24     49.42      47.05      75.43    
    2011-11-16    100       100        94.11      100
    2011-11-17    86.61     71.26      100        73.68    
    
  3. Потім я накреслив це на графіку, очевидно, це лише демонструє тенденцію, і користувач має таблицю даних у нижній частині сторінки.


0

Це був би і мій підхід - - щоб налаштувати різні розміри на одну і ту ж шкалу, поділяючи на X, але я використовував би значення avg, а не max або min значення. Причина - якщо ви додаєте дані з часом, ваш макс. Або хв., Швидше за все, зміниться, і тоді на останній діаграмі 100% цього разу було щось інше - діаграма не так легко сумісна з попередніми діаграмами - - якщо ви використовуєте avg, тоді зміни не є настільки різкими.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.