Запитання з тегом «dataframe»

Кадр даних - це таблична структура даних. Зазвичай він містить дані, де рядки - це спостереження, а стовпці - змінні різних типів. Хоча "кадр даних" або "кадр даних" - це термін, використовуваний для цього поняття на декількох мовах (R, Apache Spark, deedle, Maple, бібліотека панд на Python та бібліотека DataFrames в Джулії), "table" - це термін, використовуваний у MATLAB і SQL.

6
панди: Як розділити текст у стовпці на кілька рядків?
Я працюю з великим файлом csv, і наступний до останнього стовпця містить рядок тексту, який я хочу розділити за певним роздільником. Мені було цікаво, чи існує простий спосіб зробити це за допомогою панди чи пітона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, …
135 python  pandas  dataframe 


4
Панди Python: заповнюйте кадр даних за рядком
Просте завдання додати рядок до pandas.DataFrameоб'єкта, здається, важко виконати. З цим пов'язано 3 запитання про стаціонарний потік, жодне з яких не дає діючої відповіді. Ось що я намагаюся зробити. У мене є DataFrame, з якого я вже знаю форму, а також назви рядків і стовпців. >>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z']) …
133 python  dataframe  row  pandas 

5
Pandas DataFrame: замініть усі значення в стовпці, виходячи з умови
У мене є проста DataFrame на зразок наступного: Я хочу вибрати всі значення зі стовпця "Перший сезон" і замінити значення, які перевищили 1990 рік, на 1. У цьому прикладі тільки Балтімор Воронів замінив би 1996 р. На 1 (залишивши всі дані недоторканими). Я використав наступне: df.loc[(df['First Season'] > 1990)] = …
132 python  pandas  dataframe 

2
Призначте кілька стовпців, використовуючи: = у таблиці даних, за групами
Який найкращий спосіб призначити кілька колонок за допомогою data.table? Наприклад: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Я хотів би зробити щось подібне (звичайно, цей синтаксис є неправильним): x[ , (col1, col2) := f(), by = "id"] І щоб розширити це, у мене може бути багато стовпців …

8
Опустіть рядки, що містять конкретний стовпець NA
Я хочу знати, як опускати NAзначення в кадрі даних, але лише в деяких колонках, які мене цікавлять. Наприклад, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) але я хочу лише опустити дані там, де yє NA, тому результат повинен бути x y z …
129 r  dataframe  na 

9
Видаліть із стовпців небажані частини зі стовпців
Я шукаю ефективний спосіб видалення небажаних частин із рядків у стовпці DataFrame. Дані виглядають так: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Мені потрібно обрізати ці дані: time result 1 09:00 52 2 10:00 62 3 11:00 44 4 12:00 …

5
R - Об'єднайте два фрейми даних?
З огляду на два dataframes aі b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 …

10
Як можна додати рядок до кадру даних в R?
Як R, як додати новий рядок до кадру даних, коли кадр даних уже ініціалізований? Поки що я маю це: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to the same …
129 r  dataframe 

9
Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?
У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

4
Об'єднайте список фреймів даних панд разом
У мене є список фреймів даних Pandas, які я хотів би об'єднати в один фрейм даних Pandas. Я використовую Python 2.7.10 та Pandas 0.16.2 Я створив список фреймів даних із: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): …

5
Як визначити розділення DataFrame?
Я почав використовувати Spark SQL та DataFrames в Spark 1.4.0. Я хочу визначити спеціальний учасник на DataFrames у Scala, але не бачу, як це зробити. Одна з таблиць даних, з якою я працюю, містить перелік транзакцій, за рахунком, silimar до наступного прикладу. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

5
Додайте пропущені дати до фрейму даних панд
Мої дані можуть мати декілька подій у певну дату або НЕ подій на дату. Я беру ці події, беру підрахунок за датою та малюю їх. Однак, коли я їх закладаю, мої дві серії не завжди відповідають. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() У наведеному вище коді idx стає діапазоном, …
127 python  date  plot  pandas  dataframe 

6
Як коротко написати формулу з багатьма змінними з фрейму даних?
Припустимо, у мене є змінна відповіді та дані, що містять три коваріати (як приклад іграшки): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Я хочу приєднати лінійну регресію до даних: fit = lm(y ~ d$x1 + d$x2 + d$y2) Чи є спосіб написати формулу, …
127 r  dataframe  glm  lm 

3
Кілька агрегацій одного і того ж стовпця за допомогою pandas GroupBy.agg ()
Чи існує вбудований спосіб панд застосувати дві різні функції агрегування f1, f2до одного стовпця df["returns"], не потребуючи виклику agg()кілька разів? Приклад фрейму даних: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.