Новачок в аналітиці з Python, будь ласка, будьте ласкаві :-) Я не зміг знайти відповідь на це питання - вибачте, якщо на нього вже відповіли в іншому форматі.
У мене є набір даних про транзакції для торгової точки. Змінні разом із поясненням:
- розділ: секція магазину, вул;
- prod_name: назва продукту, str;
- квитанція: номер рахунку-фактури, int;
- касир, номер касира, int;
- вартість: вартість предмета, поплавок;
- дата, у форматі MM / DD / YY, str;
- час, у форматі HH: MM: SS, str;
Квитанція має однакове значення для всіх товарів, придбаних за одну транзакцію, таким чином, її можна використовувати для визначення середньої кількості покупок, здійснених за одну транзакцію.
Який найкращий шлях для цього? Я по суті хочу використовувати groupby()
групувати змінну прийому за її власними однаковими явищами, щоб я міг створити гістограму.
Робота з даними в пандах DataFrame.
Редагувати:
Ось кілька зразкових даних із заголовком (prod_name - це насправді шістнадцяткове число):
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
З цього набору зразків я б очікував гістограми отримання, яка показує два випадки отримання 102857 (оскільки ця людина купила два предмети за одну транзакцію) та одну зустріч відповідно отримання 102856 та квитанції 102858. Примітка: мій набір даних не величезний, про 1 мільйон рядків.