Запитання з тегом «apache-spark-sql»

Apache Spark SQL - це інструмент для "обробки SQL та структурованих даних" на Spark, швидкій та загальній системі кластерних обчислень. Він може бути використаний для отримання даних з вулика, паркету тощо та запуску SQL-запитів над існуючими RDD та наборами даних.


23
Як я можу змінити типи стовпців у DataFrame Spark SQL?
Припустимо, я роблю щось на кшталт: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

8
Як вибрати перший рядок кожної групи?
У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

14
Іскра - завантажити файл CSV як DataFrame?
Я хотів би прочитати CSV в іскрі і перетворити його у DataFrame і зберігати його в HDFS df.registerTempTable("table_name") Я намагався: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Помилка, яку я отримав: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, …

11
Як перетворити RDD-об'єкт в кадр даних в іскрі
Як я можу перетворити RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) у кадр даних org.apache.spark.sql.DataFrame. Я перетворив фрейм даних в rdd за допомогою .rdd. Після обробки я повертаю його назад у фрейм даних. Як я можу це зробити?

2
Як додати постійний стовпець у Spark DataFrame?
Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

6
Як сортувати за стовпцем у порядку зменшення в Spark SQL?
я намагався df.orderBy("col1").show(10) але сортував у порядку зростання. df.sort("col1").show(10)також сортує у порядку зменшення. Я переглянув stackoverflow, і знайдені відповіді були застарілими або були передані на RDD . Я хотів би використовувати рідний фрейм даних в іскрі.

9
Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?
У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

5
Як визначити розділення DataFrame?
Я почав використовувати Spark SQL та DataFrames в Spark 1.4.0. Я хочу визначити спеціальний учасник на DataFrames у Scala, але не бачу, як це зробити. Одна з таблиць даних, з якою я працюю, містить перелік транзакцій, за рахунком, silimar до наступного прикладу. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …


14
Як перевірити, чи кадр даних spark не порожній?
Зараз я повинен використовувати, df.count > 0щоб перевірити, чи DataFrameпорожній чи ні. Але це наче неефективно. Чи є кращий спосіб це зробити? Дякую. PS: Я хочу перевірити, чи не пусте, щоб зберегти лише DataFrameякщо не пусте

10
Фільтрувати стовпець кадру даних Pyspark зі значенням None
Я намагаюся відфільтрувати фрейм даних PySpark, який має Noneзначення рядка: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] і я можу правильно відфільтрувати за допомогою рядкового значення: df[df.dt_mvmt == '2016-03-31'] # some results here але це не вдається: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Але для кожної категорії точно …

5
як змінити стовпець Dataframe із типу String на тип Double у pyspark
У мене є фрейм даних із стовпцем як String. Я хотів змінити тип стовпця на Double type у PySpark. Ось такий шлях я зробив: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотів знати, чи це правильний спосіб це зробити, оскільки під час проходження логістичної регресії я отримую деяку …


6
Перейменування назв стовпців DataFrame у Spark Scala
Я намагаюся перетворити всі заголовки / імена стовпців a DataFrameу Spark-Scala. на даний момент я придумав наступний код, який замінює лише одне ім'я стовпця. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.