Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.

12
java.io.IOException: Не вдалося знайти виконуваний файл null \ bin \ winutils.exe у двійкових файлах Hadoop. spark Eclipse на windows 7
Я не можу виконати просту sparkроботу в Scala IDE(проект Maven spark), встановленому наWindows 7 Додано залежність іскрового ядра. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Помилка: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR Shell: Failed …



5
Spark DataFrame groupBy та сортувати за спаданням (pyspark)
Я використовую pyspark (Python 2.7.9 / Spark 1.3.1) і маю фрейм даних GroupObject, який мені потрібно відфільтрувати та відсортувати за спаданням. Спроба досягти цього за допомогою цього шматка коду. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Але він видає таку помилку. sort() got an unexpected keyword argument 'ascending'

18
Як встановити версію python драйвера в іскрі?
Я використовую spark 1.4.0-rc2, щоб я міг використовувати python 3 з spark. Якщо я додаю export PYSPARK_PYTHON=python3до свого файлу .bashrc, я можу запустити іскру в інтерактивному режимі за допомогою python 3. Однак, якщо я хочу запустити автономну програму в локальному режимі, я отримую повідомлення про помилку: Exception: Python in worker …

12
Помилка іскрової оболонки Mac при ініціалізації SparkContext
Я спробував запустити spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) на Mac OS Yosemite 10.10.5 за допомогою "./bin/spark-shell". У ньому є помилка нижче. Я також намагався встановити різні версії Spark, але всі мають однакову помилку. Я вже вдруге запускаю Spark. Мій попередній запуск працює нормально. log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). …


9
Витяг значень стовпців Dataframe як списку в Apache Spark
Я хочу перетворити рядок стовпця кадру даних у список. Що я можу знайти в DataframeAPI, це RDD, тому я спробував перетворити його назад у RDD, а потім застосувати toArrayфункцію до RDD. У цьому випадку довжина та SQL працюють нормально. Однак результат, який я отримав від RDD, має квадратні дужки навколо …

8
Чому завдання Spark не справляються з org.apache.spark.shuffle.MetadataFetchFailedException: Немає вихідного розташування для перетасовки 0 у режимі спекуляції?
Я запускаю роботу Spark у режимі спекуляції. У мене близько 500 завдань і близько 500 файлів стисненими 1 Гб. Я продовжую отримувати в кожному завданні по 1-2 завдання прикріплену помилку, де вона повторюється після цього десятки разів (заважаючи завершити роботу). org.apache.spark.shuffle.MetadataFetchFailedException: Відсутнє вихідне розташування для перетасовки 0 Будь-яка ідея, у …

11
Як зберегти DataFrame безпосередньо у Hive?
Чи можна заощадити DataFrameна іскрі безпосередньо у вулику? Я спробував з перетворенням DataFrameв , Rddа потім зберегти у вигляді текстового файлу , а потім завантажуються в вулик. Але мені цікаво, чи можу я безпосередньо заощадити dataframeу вулику

2
Як налаштувати номер виконавця іскри, ядра та пам’ять виконавця?
З чого ви починаєте налаштовувати вищезазначені параметри. Починаємо ми з пам'яті виконавця і отримуємо кількість виконавців, або починаємо з ядер і отримуємо номер виконавця. Я перейшов за посиланням . Однак отримав ідею високого рівня, але все ще не впевнений, як і з чого почати і дійти до остаточного висновку.

8
Як передати параметр -D або змінну середовища в роботу Spark?
Я хочу змінити конфігурацію Typesafe завдання Spark у середовищі dev / prod. Мені здається, що найпростіший спосіб зробити це - перейти -Dconfig.resource=ENVNAMEдо роботи. Тоді бібліотека налаштувань Typesafe зробить цю роботу за мене. Чи є спосіб передати цей варіант безпосередньо на роботу? Або, можливо, є кращий спосіб змінити конфігурацію роботи під …

1
Які переваги Apache Beam над Spark / Flink для пакетної обробки?
Apache Beam підтримує декілька бікендів бігунів, включаючи Apache Spark та Flink. Я знайомий з Spark / Flink і намагаюся зрозуміти плюси / мінуси Beam для пакетної обробки. Дивлячись на приклад підрахунку слів Beam , він відчуває, що він дуже схожий на рідні еквіваленти Spark / Flink, можливо, з трохи більш …

3
Як працює HashPartitioner?
Я прочитав документацію HashPartitioner. На жаль, нічого особливо не було пояснено, окрім викликів API. Я припускаю, що HashPartitionerрозділяє розподілений набір на основі хешу ключів. Наприклад, якщо мої дані схожі (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Отже, секціонер розміщував би це в різних розділах з однаковими клавішами, що потрапляли в один …

8
Як видалити стовпці у фреймі даних pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Є два, id: bigintі я хочу видалити одного. Як я можу зробити?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.