Запитання з тегом «pandas»

Pandas - бібліотека Python для маніпулювання та аналізу даних, наприклад, фрейми даних, багатовимірні часові ряди та набори даних поперечного перерізу, які зазвичай зустрічаються в статистиці, результатах експериментальної науки, економетрії або фінансах. Pandas - одна з головних бібліотек наукових даних на Python.


13
Як надрукувати груповий об’єкт
Я хочу надрукувати результат групування з Pandas. У мене є кадр даних: import pandas as pd df = pd.DataFrame({'A': ['one', 'one', 'two', 'three', 'three', 'one'], 'B': range(6)}) print(df) A B 0 one 0 1 one 1 2 two 2 3 three 3 4 three 4 5 one 5 Під час …
133 python  pandas 

6
як перевірити тип стовпця в пандах python
Мені потрібно використовувати різні функції для обробки числових стовпців і рядків. Те, що я зараз роблю, насправді німе: allc = list((agg.loc[:, (agg.dtypes==np.float64)|(agg.dtypes==np.int)]).columns) for y in allc: treat_numeric(agg[y]) allc = list((agg.loc[:, (agg.dtypes!=np.float64)&(agg.dtypes!=np.int)]).columns) for y in allc: treat_str(agg[y]) Чи є більш елегантний спосіб це зробити? Напр for y in agg.columns: if(dtype(agg[y]) == …
133 python  pandas 

20
Як можна зробити один гарячий кодування в Python?
У мене є проблема класифікації машинного навчання з 80% категоричними змінними. Чи потрібно використовувати одне гаряче кодування, якщо я хочу використовувати якийсь класифікатор для класифікації? Чи можу я передати дані класифікатору без кодування? Я намагаюся зробити наступне для вибору функції: Я читаю файл поїзда: num_rows_to_read = 10000 train_small = pd.read_csv("../../dataset/train.csv", …

5
Pandas DataFrame: замініть усі значення в стовпці, виходячи з умови
У мене є проста DataFrame на зразок наступного: Я хочу вибрати всі значення зі стовпця "Перший сезон" і замінити значення, які перевищили 1990 рік, на 1. У цьому прикладі тільки Балтімор Воронів замінив би 1996 р. На 1 (залишивши всі дані недоторканими). Я використав наступне: df.loc[(df['First Season'] > 1990)] = …
132 python  pandas  dataframe 

5
Нормалізуйте дані в пандах
Припустимо, у мене є кадр даних панди df: Я хочу обчислити середнє значення стовпця кадру даних. Це легко: df.apply(average) то діапазон стовпців мудрий max (col) - min (col). Знову це легко: df.apply(max) - df.apply(min) Тепер для кожного елемента я хочу відняти середнє значення його стовпця та розділити на діапазон його …
131 python  pandas  numpy 

10
Панди перетворюють кадр даних у масив кортежів
Я маніпулював деякими даними за допомогою панд, і тепер я хочу виконати пакетне збереження назад до бази даних. Це вимагає від мене перетворення фрейму даних у масив кортежів, причому кожен кортеж відповідає "рядку" фрейму даних. Мій DataFrame виглядає приблизно так: In [182]: data_set Out[182]: index data_date data_1 data_2 0 14303 …
131 python  pandas 

3
який найефективніший спосіб підрахунку випадків у пандах?
У мене є великий (близько 12 М рядків) кадр даних df з кажуть: df.columns = ['word','documents','frequency'] Отже, наступні пробігли своєчасно: word_grouping = df[['word','frequency']].groupby('word') MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index() MaxFrequency_perWord.columns = ['word','MaxFrequency'] Однак для запуску цього потрібно несподівано багато часу: Occurrences_of_Words = word_grouping[['word']].count().reset_index() Що я тут роблю неправильно? Чи є кращий спосіб підрахунку …
131 python  pandas 

2
перевірте, чи змінною є фрейм даних
коли моя функція f викликається змінною, я хочу перевірити, чи var є файлом даних панди: def f(var): if var == pd.DataFrame(): print "do stuff" Я думаю, що рішення може бути досить простим, але навіть з def f(var): if var.values != None: print "do stuff" Я не можу змусити його працювати …
130 python  pandas 

9
Видаліть із стовпців небажані частини зі стовпців
Я шукаю ефективний спосіб видалення небажаних частин із рядків у стовпці DataFrame. Дані виглядають так: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Мені потрібно обрізати ці дані: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 …

8
Як я можу побудувати окремі програми Pandas DataFrames як підзаблоки?
У мене є декілька даних Pandas DataFrames, що мають однакову шкалу значень, але мають різні стовпці та індекси. При виклику df.plot()я отримую окремі сюжетні зображення. Я дійсно хочу, щоб вони мали все в одному сюжеті, як і субплоти, але я, на жаль, не знаходжу рішення щодо того, як і буду …

4
Об'єднайте список фреймів даних панд разом
У мене є список фреймів даних Pandas, які я хотів би об'єднати в один фрейм даних Pandas. Я використовую Python 2.7.10 та Pandas 0.16.2 Я створив список фреймів даних із: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): …

7
Видалення індексного стовпця в пандах під час читання CSV
У мене є такий код, який імпортує файл CSV. Є 3 стовпчики, і я хочу встановити перші два з них на змінні. Коли я встановлюю другий стовпчик на змінну "ефективність", на нього також розміщується індексний стовпчик. Як я можу позбутися стовпчика індексу? df = pd.DataFrame.from_csv('Efficiency_Data.csv', header=0, parse_dates=False) energy = df.index …
128 python  pandas 

5
Додайте пропущені дати до фрейму даних панд
Мої дані можуть мати декілька подій у певну дату або НЕ подій на дату. Я беру ці події, беру підрахунок за датою та малюю їх. Однак, коли я їх закладаю, мої дві серії не завжди відповідають. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() У наведеному вище коді idx стає діапазоном, …
127 python  date  plot  pandas  dataframe 

7
Заміна Pandas або Numpy Nan на None для використання з MysqlDB
Я намагаюся написати кадр даних Pandas (або можна використовувати масив numpy) до бази даних mysql за допомогою MysqlDB. MysqlDB, схоже, не розуміє "nan", і моя база даних видаляє помилку, кажучи, що nan не знаходиться в списку полів. Мені потрібно знайти спосіб перетворити 'nan' в NoneType. Будь-які ідеї?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.