Програмування apache-spark

12

java.io.IOException: Не вдалося знайти виконуваний файл null \ bin \ winutils.exe у двійкових файлах Hadoop. spark Eclipse на windows 7

Я не можу виконати просту sparkроботу в Scala IDE(проект Maven spark), встановленому наWindows 7 Додано залежність іскрового ядра. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Помилка: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …

92 eclipse scala apache-spark

5

Apache Spark: Як використовувати pyspark з Python 3

Я побудував Spark 1.4 від майстра розробки GH, і збірка пройшла нормально. Але коли я роблю a, bin/pysparkя отримую версію Python 2.7.9. Як я можу це змінити?

91 python python-3.x apache-spark

10

Чи може Apache Spark працювати без hadoop?

Чи існують залежності між Spark та Hadoop ? Якщо ні, чи є якісь функції, які я втрачу, запустивши Spark без Hadoop ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

Spark DataFrame groupBy та сортувати за спаданням (pyspark)

Я використовую pyspark (Python 2.7.9 / Spark 1.3.1) і маю фрейм даних GroupObject, який мені потрібно відфільтрувати та відсортувати за спаданням. Спроба досягти цього за допомогою цього шматка коду. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Але він видає таку помилку. sort() got an unexpected keyword argument 'ascending'

88 python apache-spark dataframe pyspark apache-spark-sql

18

Як встановити версію python драйвера в іскрі?

Я використовую spark 1.4.0-rc2, щоб я міг використовувати python 3 з spark. Якщо я додаю export PYSPARK_PYTHON=python3до свого файлу .bashrc, я можу запустити іскру в інтерактивному режимі за допомогою python 3. Однак, якщо я хочу запустити автономну програму в локальному режимі, я отримую повідомлення про помилку: Exception: Python in worker …

87 apache-spark pyspark

12

Помилка іскрової оболонки Mac при ініціалізації SparkContext

Я спробував запустити spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) на Mac OS Yosemite 10.10.5 за допомогою "./bin/spark-shell". У ньому є помилка нижче. Я також намагався встановити різні версії Spark, але всі мають однакову помилку. Я вже вдруге запускаю Spark. Мій попередній запуск працює нормально. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). …

87 apache-spark

1

Що означає "Пропущений етап" у веб-інтерфейсі Apache Spark?

З мого інтерфейсу Spark. Що це означає під пропущеним?

87 apache-spark rdd

9

Витяг значень стовпців Dataframe як списку в Apache Spark

Я хочу перетворити рядок стовпця кадру даних у список. Що я можу знайти в DataframeAPI, це RDD, тому я спробував перетворити його назад у RDD, а потім застосувати toArrayфункцію до RDD. У цьому випадку довжина та SQL працюють нормально. Однак результат, який я отримав від RDD, має квадратні дужки навколо …

86 scala apache-spark apache-spark-sql

8

Чому завдання Spark не справляються з org.apache.spark.shuffle.MetadataFetchFailedException: Немає вихідного розташування для перетасовки 0 у режимі спекуляції?

Я запускаю роботу Spark у режимі спекуляції. У мене близько 500 завдань і близько 500 файлів стисненими 1 Гб. Я продовжую отримувати в кожному завданні по 1-2 завдання прикріплену помилку, де вона повторюється після цього десятки разів (заважаючи завершити роботу). org.apache.spark.shuffle.MetadataFetchFailedException: Відсутнє вихідне розташування для перетасовки 0 Будь-яка ідея, у …

85 apache-spark

11

Як зберегти DataFrame безпосередньо у Hive?

Чи можна заощадити DataFrameна іскрі безпосередньо у вулику? Я спробував з перетворенням DataFrameв , Rddа потім зберегти у вигляді текстового файлу , а потім завантажуються в вулик. Але мені цікаво, чи можу я безпосередньо заощадити dataframeу вулику

85 scala apache-spark hive apache-spark-sql

2

Як налаштувати номер виконавця іскри, ядра та пам’ять виконавця?

З чого ви починаєте налаштовувати вищезазначені параметри. Починаємо ми з пам'яті виконавця і отримуємо кількість виконавців, або починаємо з ядер і отримуємо номер виконавця. Я перейшов за посиланням . Однак отримав ідею високого рівня, але все ще не впевнений, як і з чого почати і дійти до остаточного висновку.

84 apache-spark

8

Як передати параметр -D або змінну середовища в роботу Spark?

Я хочу змінити конфігурацію Typesafe завдання Spark у середовищі dev / prod. Мені здається, що найпростіший спосіб зробити це - перейти -Dconfig.resource=ENVNAMEдо роботи. Тоді бібліотека налаштувань Typesafe зробить цю роботу за мене. Чи є спосіб передати цей варіант безпосередньо на роботу? Або, можливо, є кращий спосіб змінити конфігурацію роботи під …

83 scala apache-spark

1

Які переваги Apache Beam над Spark / Flink для пакетної обробки?

Apache Beam підтримує декілька бікендів бігунів, включаючи Apache Spark та Flink. Я знайомий з Spark / Flink і намагаюся зрозуміти плюси / мінуси Beam для пакетної обробки. Дивлячись на приклад підрахунку слів Beam , він відчуває, що він дуже схожий на рідні еквіваленти Spark / Flink, можливо, з трохи більш …

83 apache-spark apache-flink apache-beam

3

Як працює HashPartitioner?

Я прочитав документацію HashPartitioner. На жаль, нічого особливо не було пояснено, окрім викликів API. Я припускаю, що HashPartitionerрозділяє розподілений набір на основі хешу ключів. Наприклад, якщо мої дані схожі (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Отже, секціонер розміщував би це в різних розділах з однаковими клавішами, що потрапляли в один …

82 scala apache-spark rdd partitioning

8

Як видалити стовпці у фреймі даних pyspark

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Є два, id: bigintі я хочу видалити одного. Як я можу зробити?

82 apache-spark apache-spark-sql pyspark

Запитання з тегом «apache-spark»