Програмування apache-spark

23

Як я можу змінити типи стовпців у DataFrame Spark SQL?

Припустимо, я роблю щось на кшталт: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

152 scala apache-spark apache-spark-sql

8

Як зберігати власні об’єкти в наборі даних?

Відповідно до введення наборів даних Spark : Очікуючи Spark 2.0, ми плануємо кілька захоплюючих удосконалень наборів даних, зокрема: ... Спеціальні кодери - поки ми автоматично автогенеруємо кодери для найрізноманітніших типів, ми хотіли б відкрити API для спеціальних об'єктів. і спроби зберігати користувальницький тип Datasetпризводить до наступних помилок, таких як: Неможливо …

149 scala apache-spark apache-spark-dataset apache-spark-encoders

15

Як вимкнути журнал INFO в Spark?

Я встановив Spark за допомогою посібника AWS EC2, і я можу запустити програму за допомогою bin/pysparkсценарію, щоб дістатися до іскрового підказка, а також можу успішно виконати Швидкий старт. Однак я не можу за все життя зрозуміти, як зупинити весь багатослівний INFOжурнал після кожної команди. Я спробував майже кожен можливий сценарій …

144 python scala apache-spark hadoop pyspark

8

Як вибрати перший рядок кожної групи?

У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

143 sql scala apache-spark dataframe apache-spark-sql

3

Як поділяються етапи на завдання в Spark?

Припустимо для наступного, що у кожний момент часу виконується лише одне завдання Spark. Що я отримую поки що Ось що я розумію, що відбувається в Spark: Коли а SparkContextстворюється, кожен вузол робітника запускає виконавця. Виконавці - це окремі процеси (JVM), які підключаються назад до драйверної програми. Кожен виконавець має банку …

143 apache-spark

14

Іскра - завантажити файл CSV як DataFrame?

Я хотів би прочитати CSV в іскрі і перетворити його у DataFrame і зберігати його в HDFS df.registerTempTable("table_name") Я намагався: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Помилка, яку я отримав: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, …

141 scala apache-spark hadoop apache-spark-sql hdfs

11

Як перетворити RDD-об'єкт в кадр даних в іскрі

Як я можу перетворити RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) у кадр даних org.apache.spark.sql.DataFrame. Я перетворив фрейм даних в rdd за допомогою .rdd. Після обробки я повертаю його назад у фрейм даних. Як я можу це зробити?

139 scala apache-spark apache-spark-sql rdd

2

Як додати постійний стовпець у Spark DataFrame?

Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Як сортувати за стовпцем у порядку зменшення в Spark SQL?

я намагався df.orderBy("col1").show(10) але сортував у порядку зростання. df.sort("col1").show(10)також сортує у порядку зменшення. Я переглянув stackoverflow, і знайдені відповіді були застарілими або були передані на RDD . Я хотів би використовувати рідний фрейм даних в іскрі.

137 scala apache-spark apache-spark-sql

3

Apache Spark: карта проти картиПаделі?

Яка різниця між RDD map та mapPartitionsметодом? А чи flatMapповодиться так mapчи як mapPartitions? Дякую. (редагувати), тобто яка різниця (семантично чи з точки зору виконання) між def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) …

133 performance scala apache-spark rdd

9

Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?

У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

129 python apache-spark dataframe pyspark apache-spark-sql

5

Як визначити розділення DataFrame?

Я почав використовувати Spark SQL та DataFrames в Spark 1.4.0. Я хочу визначити спеціальний учасник на DataFrames у Scala, але не бачу, як це зробити. Одна з таблиць даних, з якою я працюю, містить перелік транзакцій, за рахунком, silimar до наступного прикладу. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

128 scala apache-spark dataframe apache-spark-sql partitioning

12

Як встановити пам'ять Apache Spark Executor

Як я можу збільшити пам'ять, доступну для вузлів виконавця іскри Apache? У мене є 2 ГБ файл, який підходить для завантаження в Apache Spark. Я зараз запускаю іскру apache на 1 машині, тож водій і виконавець знаходяться на одній машині. Машина має 8 ГБ пам'яті. Коли я намагаюся підрахувати рядки …

127 memory apache-spark

10

Як надрукувати вміст RDD?

Я намагаюся надрукувати вміст колекції на консолі Spark. У мене є тип: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] І я використовую команду: scala> linesWithSessionId.map(line => println(line)) Але це надруковано: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] на карті за адресою: 19 Як я можу записати RDD на консоль або зберегти його на диск, …

124 scala apache-spark

14

Об'єднайте стовпці в Apache Spark DataFrame

Як ми об'єднуємо два стовпці в DataFrame Apache Spark? Чи є якась функція в Spark SQL, яку ми можемо використовувати?

116 sql apache-spark dataframe apache-spark-sql

Запитання з тегом «apache-spark»