Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.

23
Як я можу змінити типи стовпців у DataFrame Spark SQL?
Припустимо, я роблю щось на кшталт: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() year …

8
Як зберігати власні об’єкти в наборі даних?
Відповідно до введення наборів даних Spark : Очікуючи Spark 2.0, ми плануємо кілька захоплюючих удосконалень наборів даних, зокрема: ... Спеціальні кодери - поки ми автоматично автогенеруємо кодери для найрізноманітніших типів, ми хотіли б відкрити API для спеціальних об'єктів. і спроби зберігати користувальницький тип Datasetпризводить до наступних помилок, таких як: Неможливо …

15
Як вимкнути журнал INFO в Spark?
Я встановив Spark за допомогою посібника AWS EC2, і я можу запустити програму за допомогою bin/pysparkсценарію, щоб дістатися до іскрового підказка, а також можу успішно виконати Швидкий старт. Однак я не можу за все життя зрозуміти, як зупинити весь багатослівний INFOжурнал після кожної команди. Я спробував майже кожен можливий сценарій …

8
Як вибрати перший рядок кожної групи?
У мене створено DataFrame наступним чином: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Результати виглядають так: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| …

3
Як поділяються етапи на завдання в Spark?
Припустимо для наступного, що у кожний момент часу виконується лише одне завдання Spark. Що я отримую поки що Ось що я розумію, що відбувається в Spark: Коли а SparkContextстворюється, кожен вузол робітника запускає виконавця. Виконавці - це окремі процеси (JVM), які підключаються назад до драйверної програми. Кожен виконавець має банку …
143 apache-spark 

14
Іскра - завантажити файл CSV як DataFrame?
Я хотів би прочитати CSV в іскрі і перетворити його у DataFrame і зберігати його в HDFS df.registerTempTable("table_name") Я намагався: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Помилка, яку я отримав: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, …

11
Як перетворити RDD-об'єкт в кадр даних в іскрі
Як я можу перетворити RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) у кадр даних org.apache.spark.sql.DataFrame. Я перетворив фрейм даних в rdd за допомогою .rdd. Після обробки я повертаю його назад у фрейм даних. Як я можу це зробити?

2
Як додати постійний стовпець у Spark DataFrame?
Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

6
Як сортувати за стовпцем у порядку зменшення в Spark SQL?
я намагався df.orderBy("col1").show(10) але сортував у порядку зростання. df.sort("col1").show(10)також сортує у порядку зменшення. Я переглянув stackoverflow, і знайдені відповіді були застарілими або були передані на RDD . Я хотів би використовувати рідний фрейм даних в іскрі.

3
Apache Spark: карта проти картиПаделі?
Яка різниця між RDD map та mapPartitionsметодом? А чи flatMapповодиться так mapчи як mapPartitions? Дякую. (редагувати), тобто яка різниця (семантично чи з точки зору виконання) між def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) …

9
Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?
У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

5
Як визначити розділення DataFrame?
Я почав використовувати Spark SQL та DataFrames в Spark 1.4.0. Я хочу визначити спеціальний учасник на DataFrames у Scala, але не бачу, як це зробити. Одна з таблиць даних, з якою я працюю, містить перелік транзакцій, за рахунком, silimar до наступного прикладу. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 …

12
Як встановити пам'ять Apache Spark Executor
Як я можу збільшити пам'ять, доступну для вузлів виконавця іскри Apache? У мене є 2 ГБ файл, який підходить для завантаження в Apache Spark. Я зараз запускаю іскру apache на 1 машині, тож водій і виконавець знаходяться на одній машині. Машина має 8 ГБ пам'яті. Коли я намагаюся підрахувати рядки …

10
Як надрукувати вміст RDD?
Я намагаюся надрукувати вміст колекції на консолі Spark. У мене є тип: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] І я використовую команду: scala> linesWithSessionId.map(line => println(line)) Але це надруковано: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] на карті за адресою: 19 Як я можу записати RDD на консоль або зберегти його на диск, …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.