Програмування apache-spark

19

Це копія чужого запитання на іншому форумі, на яку ніколи не було відповіді, тому я подумав, що я його ще раз запитаю тут, як у мене те саме питання. (Див. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) На моїй машині Spark встановлено належним чином і я можу запускати програми python з модулями pyspark без помилок …

111 python apache-spark pyspark

12

Завантажте файл CSV за допомогою іскри

Я новачок у Spark, і я намагаюся прочитати дані CSV з файлу із Spark. Ось що я роблю: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я очікую, що цей дзвінок дасть мені список двох перших стовпців мого файлу, але я отримую цю помилку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list …

110 python csv apache-spark pyspark

13

Запишіть один CSV-файл, використовуючи spark-csv

Я використовую https://github.com/databricks/spark-csv , я намагаюся написати єдиний CSV, але не в змозі, це робить папку. Потрібна функція Scala, яка буде приймати такий параметр, як шлях і ім'я файлу, і записувати цей файл CSV.

108 scala csv apache-spark spark-csv

8

Як перезаписати вихідний каталог в іскру

У мене є програма для іскрового потокового передавання, яка виробляє набір даних на кожну хвилину. Мені потрібно зберегти / перезаписати результати оброблюваних даних. Коли я намагався замінити набір даних org.apache.hadoop.mapred.FileAlreadyExistsException, зупиняє виконання. Я встановив властивість Spark set("spark.files.overwrite","true"), але немає удачі. Як перезаписати або попередньо виділити файли з іскри?

107 apache-spark

8

Перетворити стовпець spark DataFrame у список python

Я працюю над фреймом даних із двома стовпцями, mvv та count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | я хотів би отримати два списки, що містять значення mvv та значення підрахунку. Щось на зразок …

104 python apache-spark pyspark spark-dataframe

4

Spark Kill Running Application

У мене запущена програма Spark, де вона займає всі ядра, де в інших моїх додатках не буде виділено жодного ресурсу. Я зробив кілька швидких досліджень, і люди запропонували використовувати команду YARN kill або / bin / spark-class для вбивства команди. Однак я використовую версію CDH, і / bin / spark-клас …

101 apache-spark yarn pyspark

14

Як перевірити, чи кадр даних spark не порожній?

Зараз я повинен використовувати, df.count > 0щоб перевірити, чи DataFrameпорожній чи ні. Але це наче неефективно. Чи є кращий спосіб це зробити? Дякую. PS: Я хочу перевірити, чи не пусте, щоб зберегти лише DataFrameякщо не пусте

101 apache-spark apache-spark-sql

14

Як завантажити локальний файл у sc.textFile, а не HDFS

Я стежу за великим уроком із іскри тому я намагаюся в 46m: 00s завантажити, README.mdале не вдалося зробити те, що я роблю, це: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 …

100 scala apache-spark

10

Фільтрувати стовпець кадру даних Pyspark зі значенням None

Я намагаюся відфільтрувати фрейм даних PySpark, який має Noneзначення рядка: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] і я можу правильно відфільтрувати за допомогою рядкового значення: df[df.dt_mvmt == '2016-03-31'] # some results here але це не вдається: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Але для кожної категорії точно …

100 python apache-spark dataframe pyspark apache-spark-sql

5

як змінити стовпець Dataframe із типу String на тип Double у pyspark

У мене є фрейм даних із стовпцем як String. Я хотів змінити тип стовпця на Double type у PySpark. Ось такий шлях я зробив: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотів знати, чи це правильний спосіб це зробити, оскільки під час проходження логістичної регресії я отримую деяку …

99 python apache-spark dataframe pyspark apache-spark-sql

8

Як створити порожній DataFrame із зазначеною схемою?

Я хочу створити на DataFrameз вказаною схемою в Scala. Я намагався використовувати JSON read (я маю на увазі читання порожнього файлу), але я не думаю, що це найкраща практика.

94 scala apache-spark dataframe apache-spark-sql

10

Як налаштувати Spark у Windows?

Я намагаюся встановити Apache Spark у Windows. Трохи пошукаючи, я розумію, що автономний режим - це те, що я хочу. Які бінарні файли я завантажую, щоб запустити іскру Apache у Windows? Я бачу розподіли з hadoop та cdh на сторінці завантаження іскри. У мене немає посилань на це в Інтернеті. …

93 windows apache-spark

14

Іскра - Помилка "Основна URL-адреса повинна бути встановлена у вашій конфігурації" під час надсилання програми

У мене є програма Spark, яка працює без проблем у локальному режимі, але має деякі проблеми під час надсилання в кластер Spark. Повідомлення про помилку такі: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …

93 scala apache-spark

6

Перейменування назв стовпців DataFrame у Spark Scala

Я намагаюся перетворити всі заголовки / імена стовпців a DataFrameу Spark-Scala. на даний момент я придумав наступний код, який замінює лише одне ім'я стовпця. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

Що означають цифри на індикаторі прогресу в іскровій оболонці?

У моїй іскровій оболонці, що означають записи, як показано нижче, коли я виконую функцію? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Запитання з тегом «apache-spark»