Програмування dataframe

5

Як розділити дані на 3 групи (поїзд, валідація та тест)?

У мене є фрейм даних панд, і я хочу поділити його на 3 окремих набори. Я знаю, що, використовуючи train_test_split від sklearn.cross_validation, можна розділити дані на два набори (поїзд та тест). Однак я не зміг знайти жодного рішення щодо розділення даних на три набори. Переважно, я хотів би мати індекси …

146 pandas numpy dataframe machine-learning scikit-learn

2

Виберіть рядки в пандах MultiIndex DataFrame

Які найпоширеніші способи вибору панд для вибору / фільтрування рядків фрейму даних, індекс якого є MultiIndex ? Нарізка на основі одного значення / мітки Нарізка на основі декількох міток з одного або декількох рівнів Фільтрування за булевими умовами та виразами Які методи застосовні за яких обставин Припущення про простоту: вхідний …

146 python pandas dataframe slice multi-index

7

Кадр даних Pandas fillna () лише деякі колонки на місці

Я намагаюся заповнити жодне значення у фреймі даних Pandas 0 не лише для деякого підмножини стовпців. Коли я роблю: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Вихід: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN …

145 python pandas dataframe

7

Як знайти, які стовпці містять значення NaN у фреймі даних Pandas

Даний фрейм даних панди, що містить можливі значення NaN, розкидані тут і там: Питання: Як визначити, які стовпці містять значення NaN? Зокрема, чи можу я отримати список назв стовпців, що містять NaN?

144 python pandas dataframe nan

8

Як вибрати перший рядок кожної групи?

У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

6

Як отримати перший стовпець панди DataFrame як серію?

Я намагався: x=pandas.DataFrame(...) s = x.take([0], axis=1) І sотримує DataFrame, а не серію.

142 python dataframe pandas series

14

Визначте кількість значень NA у стовпчику

Я хочу порахувати кількість NAзначень у стовпці кадру даних. Скажіть, мій кадр даних викликається df, а назва стовпця, який я розглядаю, - це col. Я придумав наступний спосіб: sapply(df$col, function(x) sum(length(which(is.na(x))))) Це хороший / найефективніший спосіб зробити це?

142 r dataframe

8

Перейменуйте індекс DataFrame Pandas

У мене файл CSV без заголовка, з індексом DateTime. Я хочу перейменувати ім’я індексу та стовпця, але з df.rename () перейменовано лише ім'я стовпця. Помилка? Я на версії 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 …

142 python pandas dataframe

9

Як замінити NaN на попередні значення в пандах DataFrame?

Припустимо, у мене є DataFrame з деякими NaNs: >>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>> df 0 1 2 0 1 2 3 1 4 NaN NaN 2 NaN NaN 9 Що мені потрібно зробити, це замінити кожне NaNпершим …

140 python python-3.x pandas dataframe nan

3

Як зберегти data.frame в R?

Я зробив data.frame в R, який не дуже великий, але для його побудови потрібно досить багато часу. Я хотів би зберегти його як файл, який я можу знову відкрити в R?

137 r dataframe

2

Як додати постійний стовпець у Spark DataFrame?

Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

137 python apache-spark dataframe pyspark apache-spark-sql

7

Знайдіть стовпчик, ім'я якого містить певний рядок

У мене є фрейм даних з іменами стовпців, і я хочу знайти той, який містить певний рядок, але не відповідає йому точно. Я шукаю 'spike'в іменах стовпців подобаються 'spike-2', 'hey spike', 'spiked-in'( 'spike'частина завжди неперервна). Я хочу, щоб ім’я стовпця поверталося у вигляді рядка або змінної, тому я отримую доступ …

137 python python-3.x string pandas dataframe

5

Рамка даних Pandas отримує перший рядок кожної групи

У мене є DataFrameтакі панди, як наступні. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Я хочу згрупувати це за ["id", "value"] і отримати перший рядок кожної групи. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …

137 python pandas dataframe

6

масштабування стовпців фреймів даних панди за допомогою sklearn

У мене є фрейм даних pandas зі стовпцями змішаного типу, і я хотів би застосувати min_max_scaler sklearn до деяких стовпців. В ідеалі я хотів би зробити ці перетворення на місці, але ще не знайшов способу зробити це. Я написав такий код, який працює: import pandas as pd import numpy as …

137 python pandas scikit-learn dataframe

4

Який найефективніший спосіб створити словник з двох стовпців колонок Dataframe?

Який найефективніший спосіб організації наступних панд Dataframe: дані = Position Letter 1 a 2 b 3 c 4 d 5 e в словник, як alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

136 python dictionary pandas dataframe

Запитання з тегом «dataframe»