Іскра - Помилка "Основна URL-адреса повинна бути встановлена у вашій конфігурації" під час надсилання програми

Question 1

У мене є програма Spark, яка працює без проблем у локальному режимі, але має деякі проблеми під час надсилання в кластер Spark.

Повідомлення про помилку такі:

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
    at GroupEvolutionES$.<init>(GroupEvolutionES.scala:37)
    at GroupEvolutionES$.<clinit>(GroupEvolutionES.scala)
    ... 14 more

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 5.0 in stage 0.0 (TID 5, cluster-node-02): java.lang.NoClassDefFoundError: Could not initialize class GroupEvolutionES$
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

У наведеному вище коді GroupEvolutionES знаходиться основний клас. У повідомленні про помилку написано "У вашій конфігурації має бути встановлена головна URL-адреса", але я вказав параметр "--master" spark-submit.

Той, хто знає, як вирішити цю проблему?

Версія Spark: 1.6.1

Question 2

Де визначено об'єкт sparkContext, він знаходиться всередині головної функції?

Я теж зіткнувся з тією ж проблемою, помилкою, яку я зробив, було те, що я ініціював sparkContext поза основною функцією та всередині класу.

Коли я ініціював його всередині основної функції, він працював нормально.

Question 3

TLDR:

.config("spark.master", "local")

перелік опцій для spark.master в spark 2.2.1

Я опинився на цій сторінці після спроби запустити просту Java-програму Spark SQL у локальному режимі. Для цього я виявив, що можу встановити spark.master, використовуючи:

SparkSession spark = SparkSession
.builder()
.appName("Java Spark SQL basic example")
.config("spark.master", "local")
.getOrCreate();

Оновлення моєї відповіді:

Щоб бути зрозумілим, це не те, що ви повинні робити у виробничому середовищі. У виробничому середовищі spark.master слід вказати в одному з кількох інших місць: або в $ SPARK_HOME / conf / spark-defaults.conf (саме сюди це помістить менеджер cloudera), або в командному рядку, коли ви надсилаєте додаток. (колишня іскра-подати --майстер пряжа).

Якщо ви вказали spark.master як "локальний" таким чином, spark спробує запустити в одному jvm, як зазначено в коментарях нижче. Якщо ви спробуєте вказати кластер --deploy-mode, ви отримаєте повідомлення про помилку "Режим розгортання кластера не сумісний з головним" локальним "". Це тому, що встановлення spark.master = local означає, що ви НЕ працюєте в режимі кластера.

Натомість для робочої програми, у межах вашої основної функції (або у функціях, що викликаються основною функцією), вам слід просто використовувати:

SparkSession
.builder()
.appName("Java Spark SQL basic example")
.getOrCreate();

Для цього будуть використані конфігурації, вказані в командному рядку / у файлах конфігурації.

Крім того, щоб бути зрозумілим і з цим: --master та "spark.master" - це точно такий самий параметр, що просто вказується різними способами. Встановлення spark.master у коді, як у моїй відповіді вище, замінить спроби встановити --master та перевизначить значення в spark-defaults.conf, тому не робіть це у виробництві. Це чудово підходить для тестів.

також дивіться цю відповідь . який посилається на список опцій для spark.master і що кожен з них насправді робить.

перелік опцій для spark.master в spark 2.2.1

Question 4

Працював у мене після заміни

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");

з

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Знайшов це рішення в якомусь іншому потоці на stackoverflow.

Question 5

Значенням за замовчуванням "spark.master" є spark: // HOST: PORT, а наступний код намагається отримати сеанс з автономного кластера, який працює на HOST: PORT , і очікує, що значення HOST: PORT буде в файл конфігурації spark.

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .getOrCreate();

" org.apache.spark.SparkException: У вашій конфігурації має бути встановлена головна URL-адреса " : HOST: PORT не встановлений у файлі конфігурації іскри.

Щоб не турбуватися про значення "HOST: PORT", встановіть spark.master як локальний

SparkSession spark = SparkSession
    .builder()
    .appName("SomeAppName")
    .config("spark.master", "local")
    .getOrCreate();

Ось посилання на список форматів, в яких головну URL-адресу можна передати spark.master

Довідково: Підручник з Spark - Налаштування екосистеми Spark

Question 6

Якщо у вас запущена автономна програма, вам доведеться використовувати SparkContextзамістьSparkSession

val conf = new SparkConf().setAppName("Samples").setMaster("local")
val sc = new SparkContext(conf)
val textData = sc.textFile("sample.txt").cache()

Question 7

просто додайте .setMaster("local")до свого коду, як показано нижче:

val conf = new SparkConf().setAppName("Second").setMaster("local")

У мене це вийшло! Щасливого кодування!

Question 8

Як контекст spark у вашому додатку вибирає значення для master master?

Ви або надаєте його чітко із зазначенням SparkConf під час створення SC.
Або він вибирає з System.getProperties(де SparkSubmit раніше ставив його після прочитання вашого --masterаргументу).

Тепер SparkSubmitпрацює на драйвері - у вашому випадку це машина, з якої ви виконуєтеspark-submit сценарій. І це, мабуть, працює, як очікувалося, і для вас.

Однак з опублікованої вами інформації виглядає так, ніби ви створюєте іскровий контекст у коді, який надсилається виконавцю - і враховуючи, що немає spark.master доступних системних властивостей, це не вдається. (І ви насправді не повинні цього робити, якщо це так.)

Чи можете ви розмістити GroupEvolutionESкод (конкретно там, де ви створюєте SparkContext(s))?

Question 9

Заміна:

SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME");
WITH
SparkConf sparkConf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[2]").set("spark.executor.memory","1g");

Зробив магію.

Question 10

У мене була та ж проблема, ось мій код до модифікації:

package com.asagaama

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD

/**
  * Created by asagaama on 16/02/2017.
  */
object Word {

  def countWords(sc: SparkContext) = {
    // Load our input data
    val input = sc.textFile("/Users/Documents/spark/testscase/test/test.txt")
    // Split it up into words
    val words = input.flatMap(line => line.split(" "))
    // Transform into pairs and count
    val counts = words.map(word => (word, 1)).reduceByKey { case (x, y) => x + y }
    // Save the word count back out to a text file, causing evaluation.
    counts.saveAsTextFile("/Users/Documents/spark/testscase/test/result.txt")
  }

  def main(args: Array[String]) = {
    val conf = new SparkConf().setAppName("wordCount")
    val sc = new SparkContext(conf)
    countWords(sc)
  }

}

І після заміни:

val conf = new SparkConf().setAppName("wordCount")

З:

val conf = new SparkConf().setAppName("wordCount").setMaster("local[*]")

Це спрацювало чудово!

Question 11

var appName:String ="test"
val conf = new SparkConf().setAppName(appName).setMaster("local[*]").set("spark.executor.memory","1g");
val sc =  SparkContext.getOrCreate(conf)
sc.setLogLevel("WARN")

Question 12

спробуйте це

зробити рису

import org.apache.spark.sql.SparkSession
trait SparkSessionWrapper {
   lazy val spark:SparkSession = {
      SparkSession
        .builder()
        .getOrCreate()
    }
}

продовжує його

object Preprocess extends SparkSessionWrapper {

Question 13

Нам не вистачає setMaster ("local [*]") для встановлення. Як тільки ми додамо, проблема вирішується.

Проблема:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .getOrCreate()

рішення:

val spark = SparkSession
      .builder()
      .appName("Spark Hive Example")
      .config("spark.sql.warehouse.dir", warehouseLocation)
      .enableHiveSupport()
      .master("local[*]")
      .getOrCreate()

Question 14

Якщо ви використовуєте наступний код

 val sc = new SparkContext(master, "WordCount", System.getenv("SPARK_HOME"))

Потім замінити наступними рядками

  val jobName = "WordCount";
  val conf = new SparkConf().setAppName(jobName);
  val sc = new SparkContext(conf)

У Spark 2.0 ви можете використовувати наступний код

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .master("local[*]")// need to add
  .getOrCreate()

Вам потрібно додати .master ("local [*]"), якщо запуск local тут * означає весь вузол, ви можете сказати insted of 8 1,2 і т.д.

Вам потрібно встановити головну URL-адресу, якщо в кластері

Question 15

Якщо ви не надаєте конфігурацію Spark у JavaSparkContext, ви отримуєте цю помилку. Тобто: JavaSparkContext sc = new JavaSparkContext ();

Рішення: Надайте JavaSparkContext sc = new JavaSparkContext (conf);

Іскра - Помилка "Основна URL-адреса повинна бути встановлена ​​у вашій конфігурації" під час надсилання програми

Іскра - Помилка "Основна URL-адреса повинна бути встановлена у вашій конфігурації" під час надсилання програми