Програмування apache-spark-sql

15

Різниця між DataFrame, набором даних та RDD в Spark

Мені просто цікаво, в чому різниця між RDDі DataFrame (Spark 2.0.0 DataFrame - це псевдонім простого типу Dataset[Row]) у Apache Spark? Чи можете ви перетворити одне на інше?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Як я можу змінити типи стовпців у DataFrame Spark SQL?

Припустимо, я роблю щось на кшталт: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

152 scala apache-spark apache-spark-sql

8

Як вибрати перший рядок кожної групи?

У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

14

Іскра - завантажити файл CSV як DataFrame?

Я хотів би прочитати CSV в іскрі і перетворити його у DataFrame і зберігати його в HDFS df.registerTempTable("table_name") Я намагався: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Помилка, яку я отримав: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, …

141 scala apache-spark hadoop apache-spark-sql hdfs

11

Як перетворити RDD-об'єкт в кадр даних в іскрі

Як я можу перетворити RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) у кадр даних org.apache.spark.sql.DataFrame. Я перетворив фрейм даних в rdd за допомогою .rdd. Після обробки я повертаю його назад у фрейм даних. Як я можу це зробити?

139 scala apache-spark apache-spark-sql rdd

2

Як додати постійний стовпець у Spark DataFrame?

Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Як сортувати за стовпцем у порядку зменшення в Spark SQL?

я намагався df.orderBy("col1").show(10) але сортував у порядку зростання. df.sort("col1").show(10)також сортує у порядку зменшення. Я переглянув stackoverflow, і знайдені відповіді були застарілими або були передані на RDD . Я хотів би використовувати рідний фрейм даних в іскрі.

137 scala apache-spark apache-spark-sql

9

Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?

У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

129 python apache-spark dataframe pyspark apache-spark-sql

5

Як визначити розділення DataFrame?

Я почав використовувати Spark SQL та DataFrames в Spark 1.4.0. Я хочу визначити спеціальний учасник на DataFrames у Scala, але не бачу, як це зробити. Одна з таблиць даних, з якою я працюю, містить перелік транзакцій, за рахунком, silimar до наступного прикладу. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

128 scala apache-spark dataframe apache-spark-sql partitioning

14

Об'єднайте стовпці в Apache Spark DataFrame

Як ми об'єднуємо два стовпці в DataFrame Apache Spark? Чи є якась функція в Spark SQL, яку ми можемо використовувати?

116 sql apache-spark dataframe apache-spark-sql

14

Як перевірити, чи кадр даних spark не порожній?

Зараз я повинен використовувати, df.count > 0щоб перевірити, чи DataFrameпорожній чи ні. Але це наче неефективно. Чи є кращий спосіб це зробити? Дякую. PS: Я хочу перевірити, чи не пусте, щоб зберегти лише DataFrameякщо не пусте

101 apache-spark apache-spark-sql

10

Фільтрувати стовпець кадру даних Pyspark зі значенням None

Я намагаюся відфільтрувати фрейм даних PySpark, який має Noneзначення рядка: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] і я можу правильно відфільтрувати за допомогою рядкового значення: df[df.dt_mvmt == '2016-03-31'] # some results here але це не вдається: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Але для кожної категорії точно …

100 python apache-spark dataframe pyspark apache-spark-sql

5

як змінити стовпець Dataframe із типу String на тип Double у pyspark

У мене є фрейм даних із стовпцем як String. Я хотів змінити тип стовпця на Double type у PySpark. Ось такий шлях я зробив: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотів знати, чи це правильний спосіб це зробити, оскільки під час проходження логістичної регресії я отримую деяку …

99 python apache-spark dataframe pyspark apache-spark-sql

8

Як створити порожній DataFrame із зазначеною схемою?

Я хочу створити на DataFrameз вказаною схемою в Scala. Я намагався використовувати JSON read (я маю на увазі читання порожнього файлу), але я не думаю, що це найкраща практика.

94 scala apache-spark dataframe apache-spark-sql

6

Перейменування назв стовпців DataFrame у Spark Scala

Я намагаюся перетворити всі заголовки / імена стовпців a DataFrameу Spark-Scala. на даний момент я придумав наступний код, який замінює лише одне ім'я стовпця. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Запитання з тегом «apache-spark-sql»