Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.

19
імпорт pyspark в оболонці python
Це копія чужого запитання на іншому форумі, на яку ніколи не було відповіді, тому я подумав, що я його ще раз запитаю тут, як у мене те саме питання. (Див. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) На моїй машині Spark встановлено належним чином і я можу запускати програми python з модулями pyspark без помилок …

12
Завантажте файл CSV за допомогою іскри
Я новачок у Spark, і я намагаюся прочитати дані CSV з файлу із Spark. Ось що я роблю: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я очікую, що цей дзвінок дасть мені список двох перших стовпців мого файлу, але я отримую цю помилку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list …


8
Як перезаписати вихідний каталог в іскру
У мене є програма для іскрового потокового передавання, яка виробляє набір даних на кожну хвилину. Мені потрібно зберегти / перезаписати результати оброблюваних даних. Коли я намагався замінити набір даних org.apache.hadoop.mapred.FileAlreadyExistsException, зупиняє виконання. Я встановив властивість Spark set("spark.files.overwrite","true"), але немає удачі. Як перезаписати або попередньо виділити файли з іскри?
107 apache-spark 


4
Spark Kill Running Application
У мене запущена програма Spark, де вона займає всі ядра, де в інших моїх додатках не буде виділено жодного ресурсу. Я зробив кілька швидких досліджень, і люди запропонували використовувати команду YARN kill або / bin / spark-class для вбивства команди. Однак я використовую версію CDH, і / bin / spark-клас …

14
Як перевірити, чи кадр даних spark не порожній?
Зараз я повинен використовувати, df.count > 0щоб перевірити, чи DataFrameпорожній чи ні. Але це наче неефективно. Чи є кращий спосіб це зробити? Дякую. PS: Я хочу перевірити, чи не пусте, щоб зберегти лише DataFrameякщо не пусте

14
Як завантажити локальний файл у sc.textFile, а не HDFS
Я стежу за великим уроком із іскри тому я намагаюся в 46m: 00s завантажити, README.mdале не вдалося зробити те, що я роблю, це: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") 14/12/04 12:11:14 …

10
Фільтрувати стовпець кадру даних Pyspark зі значенням None
Я намагаюся відфільтрувати фрейм даних PySpark, який має Noneзначення рядка: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] і я можу правильно відфільтрувати за допомогою рядкового значення: df[df.dt_mvmt == '2016-03-31'] # some results here але це не вдається: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Але для кожної категорії точно …

5
як змінити стовпець Dataframe із типу String на тип Double у pyspark
У мене є фрейм даних із стовпцем як String. Я хотів змінити тип стовпця на Double type у PySpark. Ось такий шлях я зробив: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотів знати, чи це правильний спосіб це зробити, оскільки під час проходження логістичної регресії я отримую деяку …


10
Як налаштувати Spark у Windows?
Я намагаюся встановити Apache Spark у Windows. Трохи пошукаючи, я розумію, що автономний режим - це те, що я хочу. Які бінарні файли я завантажую, щоб запустити іскру Apache у Windows? Я бачу розподіли з hadoop та cdh на сторінці завантаження іскри. У мене немає посилань на це в Інтернеті. …

14
Іскра - Помилка "Основна URL-адреса повинна бути встановлена ​​у вашій конфігурації" під час надсилання програми
У мене є програма Spark, яка працює без проблем у локальному режимі, але має деякі проблеми під час надсилання в кластер Spark. Повідомлення про помилку такі: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157) …

6
Перейменування назв стовпців DataFrame у Spark Scala
Я намагаюся перетворити всі заголовки / імена стовпців a DataFrameу Spark-Scala. на даний момент я придумав наступний код, який замінює лише одне ім'я стовпця. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.