Програмування apache-spark

15

Різниця між DataFrame, набором даних та RDD в Spark

Мені просто цікаво, в чому різниця між RDDі DataFrame (Spark 2.0.0 DataFrame - це псевдонім простого типу Dataset[Row]) у Apache Spark? Чи можете ви перетворити одне на інше?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Іскра - переділ () проти злиття ()

За даними Learning Spark Майте на увазі, що перерозподіл даних - це досить дорога операція. Spark також має оптимізовану версію repartition()виклику, coalesce()яка дозволяє уникнути руху даних, але лише якщо ви зменшуєте кількість розділів RDD. Одна з різниць, які я отримую, полягає в тому, що з repartition()кількістю розділів можна збільшувати / …

254 apache-spark distributed-computing rdd

16

Яка різниця між картою та flatMap та корисним випадком використання для кожного?

Чи може хтось пояснити мені різницю між картою та flatMap та чим корисним є використання для кожного? Що означає "вирівнювання результатів"? Для чого це добре?

249 apache-spark

12

Іскровий java.lang.OutOfMemoryError: Куповий простір Java

Мій кластер: 1 майстер, 11 рабів, кожен вузол має 6 ГБ пам'яті. Мої налаштування: spark.executor.memory=4g, Dspark.akka.frameSize=512 Ось проблема: По-перше , я прочитав деякі дані (2,19 ГБ) від HDFS до RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) По-друге , зробіть щось на цьому RDD: val res = imageBundleRDD.map(data => { val desPoints = …

228 out-of-memory apache-spark

7

Завдання не серіалізується: java.io.NotSerializableException при виклику функції поза закриттям лише для класів, а не об'єктів

Отримання дивної поведінки під час виклику функції поза закриттям: коли функція знаходиться в об'єкті, все працює коли функція знаходиться в класі, отримуйте: Завдання не серіалізується: java.io.NotSerializableException: тестування Проблема в тому, що мені потрібен код у класі, а не об'єкт. Будь-яка ідея, чому це відбувається? Чи об’єкт Scala серіалізований (за замовчуванням?)? …

224 scala serialization apache-spark typesafe

2

Що таке робітники, виконавці, сердечники в кластері Spark Standalone?

Я читаю Огляд режиму кластерів, і досі не можу зрозуміти різні процеси в іскровому автономному кластері та паралелізм. Чи працівник процес СВМ чи ні? Я побіг bin\start-slave.shта виявив, що це породило працівника, який насправді є СП. Відповідно до вищезазначеного посилання, виконавець - це процес, запущений для програми на робочому вузлі, …

219 apache-spark distributed-computing

13

Як відобразити повний вміст стовпця в Spark Dataframe?

Я використовую spark-csv для завантаження даних у DataFrame. Я хочу зробити простий запит і відобразити вміст: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Коло здається усіченим: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …

203 apache-spark dataframe spark-csv output-formatting

5

Яка різниця між кешем та персистенцією?

З точки зору RDDстійкості, які відмінності між cache()і persist()в іскру?

202 apache-spark distributed-computing rdd

13

Як змінити назви стовпців кадру даних у pyspark?

Я надходжу з фону панд, і я звик читати дані з файлів CSV у кадр даних, а потім просто змінювати імена стовпців на щось корисне за допомогою простої команди: df.columns = new_column_name_list Однак те ж не працює у фреймах даних pyspark, створених за допомогою sqlContext. Єдине рішення, з якого я …

201 python apache-spark pyspark pyspark-sql

8

Apache Spark: кількість ядер проти кількості виконавців

Я намагаюся зрозуміти взаємозв'язок кількості ядер та кількості виконавців під час виконання завдання Spark на YARN. Тестове середовище таке: Кількість вузлів даних: 3 Технічні характеристики вузла даних: Процесор: Core i7-4790 (кількість ядер: 4, кількість потоків: 8) ОЗУ: 32 ГБ (8 ГБ х 4) Жорсткий диск: 8 ТБ (2 ТБ х …

194 hadoop apache-spark yarn

20

Як зупинити показ INFO-повідомлень на іскровій консолі?

Я хотів би зупинити різні повідомлення, які надходять на іскрову оболонку. Я намагався редагувати log4j.propertiesфайл, щоб зупинити це повідомлення. Ось зміст log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too …

181 apache-spark log4j spark-submit

10

Як читати кілька текстових файлів в один RDD?

Я хочу прочитати купу текстових файлів з hdfs-місця та виконати відображення на ній в ітерації за допомогою іскри. JavaRDD<String> records = ctx.textFile(args[1], 1); здатний читати лише один файл одночасно. Я хочу прочитати більше одного файлу та обробити їх як єдиний RDD. Як?

179 apache-spark

2

Іскрові показники для Scala vs Python

Я віддаю перевагу Python над Scala. Але, оскільки Spark споконвічно написаний у Scala, я очікував, що мій код запуститься швидше у Scala, ніж версія Python з зрозумілих причин. З цим припущенням я думав вивчити та написати версію Scala деякого дуже поширеного коду попередньої обробки для приблизно 1 ГБ даних. Дані …

178 scala performance apache-spark pyspark rdd

5

(Чому) нам потрібно викликати кеш або зберігати RDD

Коли еластичний розподілений набір даних (RDD) створюється з текстового файлу чи колекції (або з іншого RDD), чи потрібно явно викликати "кеш" або "зберігати", щоб зберігати дані RDD у пам'яті? Або дані RDD зберігаються розподіленим чином у пам'яті за замовчуванням? val textFile = sc.textFile("/user/emp.txt") Як я розумію, після вищевказаного кроку textFile …

171 scala apache-spark rdd

6

Додайте банки до іскрової роботи - подайте іскру

Правда ... це обговорювалося досить багато. Однак існує багато неоднозначностей і деякі відповіді, що надаються ..., включаючи дублювання посилань jar в конфігурації або параметрах jar / виконавця / драйвера. Неоднозначні та / або пропущені деталі Після неоднозначності, незрозумілих та / або пропущених деталей слід уточнити для кожного варіанта: Як впливає …

158 java scala apache-spark jar spark-submit

Запитання з тегом «apache-spark»