Запитання з тегом «dataframe»

Кадр даних - це таблична структура даних. Зазвичай він містить дані, де рядки - це спостереження, а стовпці - змінні різних типів. Хоча "кадр даних" або "кадр даних" - це термін, використовуваний для цього поняття на декількох мовах (R, Apache Spark, deedle, Maple, бібліотека панд на Python та бібліотека DataFrames в Джулії), "table" - це термін, використовуваний у MATLAB і SQL.

5
Як розділити дані на 3 групи (поїзд, валідація та тест)?
У мене є фрейм даних панд, і я хочу поділити його на 3 окремих набори. Я знаю, що, використовуючи train_test_split від sklearn.cross_validation, можна розділити дані на два набори (поїзд та тест). Однак я не зміг знайти жодного рішення щодо розділення даних на три набори. Переважно, я хотів би мати індекси …

2
Виберіть рядки в пандах MultiIndex DataFrame
Які найпоширеніші способи вибору панд для вибору / фільтрування рядків фрейму даних, індекс якого є MultiIndex ? Нарізка на основі одного значення / мітки Нарізка на основі декількох міток з одного або декількох рівнів Фільтрування за булевими умовами та виразами Які методи застосовні за яких обставин Припущення про простоту: вхідний …

7
Кадр даних Pandas fillna () лише деякі колонки на місці
Я намагаюся заповнити жодне значення у фреймі даних Pandas 0 не лише для деякого підмножини стовпців. Коли я роблю: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Вихід: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN 7.0 3 NaN …
145 python  pandas  dataframe 

7
Як знайти, які стовпці містять значення NaN у фреймі даних Pandas
Даний фрейм даних панди, що містить можливі значення NaN, розкидані тут і там: Питання: Як визначити, які стовпці містять значення NaN? Зокрема, чи можу я отримати список назв стовпців, що містять NaN?
144 python  pandas  dataframe  nan 

8
Як вибрати перший рядок кожної групи?
У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …


14
Визначте кількість значень NA у стовпчику
Я хочу порахувати кількість NAзначень у стовпці кадру даних. Скажіть, мій кадр даних викликається df, а назва стовпця, який я розглядаю, - це col. Я придумав наступний спосіб: sapply(df$col, function(x) sum(length(which(is.na(x))))) Це хороший / найефективніший спосіб зробити це?
142 r  dataframe 

8
Перейменуйте індекс DataFrame Pandas
У мене файл CSV без заголовка, з індексом DateTime. Я хочу перейменувати ім’я індексу та стовпця, але з df.rename () перейменовано лише ім'я стовпця. Помилка? Я на версії 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 0.190333 2002-06-26 0.134000 …
142 python  pandas  dataframe 


3
Як зберегти data.frame в R?
Я зробив data.frame в R, який не дуже великий, але для його побудови потрібно досить багато часу. Я хотів би зберегти його як файл, який я можу знову відкрити в R?
137 r  dataframe 

2
Як додати постійний стовпець у Spark DataFrame?
Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

7
Знайдіть стовпчик, ім'я якого містить певний рядок
У мене є фрейм даних з іменами стовпців, і я хочу знайти той, який містить певний рядок, але не відповідає йому точно. Я шукаю 'spike'в іменах стовпців подобаються 'spike-2', 'hey spike', 'spiked-in'( 'spike'частина завжди неперервна). Я хочу, щоб ім’я стовпця поверталося у вигляді рядка або змінної, тому я отримую доступ …

5
Рамка даних Pandas отримує перший рядок кожної групи
У мене є DataFrameтакі панди, як наступні. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Я хочу згрупувати це за ["id", "value"] і отримати перший рядок кожної групи. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 

6
масштабування стовпців фреймів даних панди за допомогою sklearn
У мене є фрейм даних pandas зі стовпцями змішаного типу, і я хотів би застосувати min_max_scaler sklearn до деяких стовпців. В ідеалі я хотів би зробити ці перетворення на місці, але ще не знайшов способу зробити це. Я написав такий код, який працює: import pandas as pd import numpy as …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.