Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.


13
Іскра - переділ () проти злиття ()
За даними Learning Spark Майте на увазі, що перерозподіл даних - це досить дорога операція. Spark також має оптимізовану версію repartition()виклику, coalesce()яка дозволяє уникнути руху даних, але лише якщо ви зменшуєте кількість розділів RDD. Одна з різниць, які я отримую, полягає в тому, що з repartition()кількістю розділів можна збільшувати / …


12
Іскровий java.lang.OutOfMemoryError: Куповий простір Java
Мій кластер: 1 майстер, 11 рабів, кожен вузол має 6 ГБ пам'яті. Мої налаштування: spark.executor.memory=4g, Dspark.akka.frameSize=512 Ось проблема: По-перше , я прочитав деякі дані (2,19 ГБ) від HDFS до RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) По-друге , зробіть щось на цьому RDD: val res = imageBundleRDD.map(data => { val desPoints = …

7
Завдання не серіалізується: java.io.NotSerializableException при виклику функції поза закриттям лише для класів, а не об'єктів
Отримання дивної поведінки під час виклику функції поза закриттям: коли функція знаходиться в об'єкті, все працює коли функція знаходиться в класі, отримуйте: Завдання не серіалізується: java.io.NotSerializableException: тестування Проблема в тому, що мені потрібен код у класі, а не об'єкт. Будь-яка ідея, чому це відбувається? Чи об’єкт Scala серіалізований (за замовчуванням?)? …

2
Що таке робітники, виконавці, сердечники в кластері Spark Standalone?
Я читаю Огляд режиму кластерів, і досі не можу зрозуміти різні процеси в іскровому автономному кластері та паралелізм. Чи працівник процес СВМ чи ні? Я побіг bin\start-slave.shта виявив, що це породило працівника, який насправді є СП. Відповідно до вищезазначеного посилання, виконавець - це процес, запущений для програми на робочому вузлі, …

13
Як відобразити повний вміст стовпця в Spark Dataframe?
Я використовую spark-csv для завантаження даних у DataFrame. Я хочу зробити простий запит і відобразити вміст: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Коло здається усіченим: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …


13
Як змінити назви стовпців кадру даних у pyspark?
Я надходжу з фону панд, і я звик читати дані з файлів CSV у кадр даних, а потім просто змінювати імена стовпців на щось корисне за допомогою простої команди: df.columns = new_column_name_list Однак те ж не працює у фреймах даних pyspark, створених за допомогою sqlContext. Єдине рішення, з якого я …

8
Apache Spark: кількість ядер проти кількості виконавців
Я намагаюся зрозуміти взаємозв'язок кількості ядер та кількості виконавців під час виконання завдання Spark на YARN. Тестове середовище таке: Кількість вузлів даних: 3 Технічні характеристики вузла даних: Процесор: Core i7-4790 (кількість ядер: 4, кількість потоків: 8) ОЗУ: 32 ГБ (8 ГБ х 4) Жорсткий диск: 8 ТБ (2 ТБ х …

20
Як зупинити показ INFO-повідомлень на іскровій консолі?
Я хотів би зупинити різні повідомлення, які надходять на іскрову оболонку. Я намагався редагувати log4j.propertiesфайл, щоб зупинити це повідомлення. Ось зміст log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs that are too …

10
Як читати кілька текстових файлів в один RDD?
Я хочу прочитати купу текстових файлів з hdfs-місця та виконати відображення на ній в ітерації за допомогою іскри. JavaRDD<String> records = ctx.textFile(args[1], 1); здатний читати лише один файл одночасно. Я хочу прочитати більше одного файлу та обробити їх як єдиний RDD. Як?
179 apache-spark 

2
Іскрові показники для Scala vs Python
Я віддаю перевагу Python над Scala. Але, оскільки Spark споконвічно написаний у Scala, я очікував, що мій код запуститься швидше у Scala, ніж версія Python з зрозумілих причин. З цим припущенням я думав вивчити та написати версію Scala деякого дуже поширеного коду попередньої обробки для приблизно 1 ГБ даних. Дані …

5
(Чому) нам потрібно викликати кеш або зберігати RDD
Коли еластичний розподілений набір даних (RDD) створюється з текстового файлу чи колекції (або з іншого RDD), чи потрібно явно викликати "кеш" або "зберігати", щоб зберігати дані RDD у пам'яті? Або дані RDD зберігаються розподіленим чином у пам'яті за замовчуванням? val textFile = sc.textFile("/user/emp.txt") Як я розумію, після вищевказаного кроку textFile …
171 scala  apache-spark  rdd 

6
Додайте банки до іскрової роботи - подайте іскру
Правда ... це обговорювалося досить багато. Однак існує багато неоднозначностей і деякі відповіді, що надаються ..., включаючи дублювання посилань jar в конфігурації або параметрах jar / виконавця / драйвера. Неоднозначні та / або пропущені деталі Після неоднозначності, незрозумілих та / або пропущених деталей слід уточнити для кожного варіанта: Як впливає …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.