Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.

10
Spark Dataframe розрізняє стовпці з дубльованою назвою
Отож, як я знаю у Spark Dataframe, для кількох стовпців може бути однакове ім’я, як показано на знімку кадру даних: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: …

11
Spark Error - Непідтримувана основна версія файлу класу
Я намагаюся встановити Spark на своєму Mac. Я використовував саморобку для встановлення іскри 2.4.0 та Scala. Я встановив PySpark у своєму середовищі anaconda і використовую PyCharm для розробки. Я експортував до свого профілю bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Однак я …

1
У якій ситуації я можу використовувати Dask замість Apache Spark? [зачинено]
Закрито . Це питання ґрунтується на думках . Наразі відповіді не приймаються. Хочете покращити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 4 роки тому . Удосконалюйте це питання В даний час я використовую Pandas та Spark для аналізу даних. …

15
Як зв’язати PyCharm з PySpark?
Я новачок у роботі з apache spark, і, мабуть, я встановив apache-spark з homebrew у своєму macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for …


8
Як запобігти java.lang.OutOfMemoryError: простір PermGen при компіляції Scala?
Я помітив дивну поведінку мого компілятора Scala. Іноді він створює OutOfMemoryError під час компіляції класу. Ось повідомлення про помилку: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classes... java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Це трапляється лише раз у раз, і помилка, як правило, не виникає під час …

9
як змусити saveAsTextFile НЕ розділити вихід на кілька файлів?
Коли я використовую Scala у Spark, щоразу, коли я викидаю результати, використовуючи saveAsTextFile, здається, це ділить вихід на кілька частин. Я просто передаю йому параметр (шлях). val year = sc.textFile("apat63_99.txt").map(_.split(",")(1)).flatMap(_.split(",")).map((_,1)).reduceByKey((_+_)).map(_.swap) year.saveAsTextFile("year") Чи відповідає кількість виходів кількості використаних редукторів? Чи означає це, що результат виходу стискається? Я знаю, що можу комбінувати …

6
Як написати модульні тести в Spark 2.0+?
Я намагався знайти розумний спосіб тестування SparkSessionза допомогою тестової системи JUnit. Хоча, мабуть, є хороші приклади SparkContext, я не міг зрозуміти, як отримати відповідний приклад, для якого він працює SparkSession, хоча він використовується в декількох місцях всередині бази тестування іскр . Я був би радий спробувати рішення, в якому також …

3
Spark SQL: застосувати агреговані функції до списку стовпців
Чи є спосіб застосувати сукупну функцію до всіх (або списку) стовпців фрейму даних, коли виконується groupBy? Іншими словами, чи є спосіб уникнути цього для кожного стовпця: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

4
Який тип кластера вибрати для Spark?
Я новачок в Apache Spark, і я щойно дізнався, що Spark підтримує три типи кластера: Автономний - це означає, що Spark буде керувати власним кластером YARN - за допомогою менеджера ресурсів YARN від Hadoop Mesos - спеціальний проект менеджера ресурсів Apache Оскільки я новачок у Spark, думаю, спочатку слід спробувати …

5
Розрахунок середньої швидкості доріг [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 3 дні тому . Я пішов на співбесіду з інженера даних. Інтерв'юер задав мені запитання. Він дав мені …

2
Тупик, коли одночасно заплановано багато іскрових завдань
Використання іскри 2.4.4, що працює в режимі кластера YARN з планувальником іскри FIFO. Я надсилаю кілька операцій з фреймом даних іскри (тобто записування даних у S3) за допомогою виконавця пулу потоків зі змінною кількістю потоків. Це добре працює, якщо у мене є ~ 10 потоків, але якщо я використовую сотні …

2
Іскра: Чому Python значно перевершує Scala в моєму випадку використання?
Для порівняння продуктивності Spark при використанні Python та Scala я створив однакову роботу на обох мовах та порівняв час виконання. Я очікував, що обидві роботи займуть приблизно стільки ж часу, але робота в Python зайняла лише 27minтой час, коли робота Scala зайняла 37min(майже на 40% більше!). Я реалізував ту саму …

1
Написання понад 50 мільйонів від Pyspark df до PostgresSQL, найкращий ефективний підхід
Що було б найефективнішим способом вставити мільйони записів, скажімо, 50 мільйонів із фрейму даних Spark до таблиць Postgres. У минулому я це робив від іскри до MSSQL, використовуючи опцію масової копії та розміру партії, яка теж була успішною. Чи є щось подібне, що може бути тут для Postgres? Додавши код, …

3
Як виправити помилку 'TypeError: потрібне ціле число (отримані байти типу)' при спробі запуску pyspark після встановлення іскри 2.4.4
Я встановив OpenJDK 13.0.1 та python 3.8 та spark 2.4.4. Інструкція для перевірки встановлення полягає у запуску. \ Bin \ pyspark з кореня установки іскри. Я не впевнений, чи пропустив я крок в установці іскри, наприклад встановлення якоїсь змінної середовища, але не можу знайти більш детальних інструкцій. Я можу запустити …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.