Запитання з тегом «pyspark»

API Spark Python (PySpark) надає Python модель програмування apache-spark.

10
Spark Dataframe розрізняє стовпці з дубльованою назвою
Отож, як я знаю у Spark Dataframe, для кількох стовпців може бути однакове ім’я, як показано на знімку кадру даних: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: …

11
Spark Error - Непідтримувана основна версія файлу класу
Я намагаюся встановити Spark на своєму Mac. Я використовував саморобку для встановлення іскри 2.4.0 та Scala. Я встановив PySpark у своєму середовищі anaconda і використовую PyCharm для розробки. Я експортував до свого профілю bash: export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1` export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec" export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH Однак я …

15
Як зв’язати PyCharm з PySpark?
Я новачок у роботі з apache spark, і, мабуть, я встановив apache-spark з homebrew у своєму macbook: Last login: Fri Jan 8 12:52:04 on console user@MacBook-Pro-de-User-2:~$ pyspark Python 2.7.10 (default, Jul 13 2015, 12:05:58) [GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin Type "help", "copyright", "credits" or "license" for …


2
Іскра: Чому Python значно перевершує Scala в моєму випадку використання?
Для порівняння продуктивності Spark при використанні Python та Scala я створив однакову роботу на обох мовах та порівняв час виконання. Я очікував, що обидві роботи займуть приблизно стільки ж часу, але робота в Python зайняла лише 27minтой час, коли робота Scala зайняла 37min(майже на 40% більше!). Я реалізував ту саму …

1
Написання понад 50 мільйонів від Pyspark df до PostgresSQL, найкращий ефективний підхід
Що було б найефективнішим способом вставити мільйони записів, скажімо, 50 мільйонів із фрейму даних Spark до таблиць Postgres. У минулому я це робив від іскри до MSSQL, використовуючи опцію масової копії та розміру партії, яка теж була успішною. Чи є щось подібне, що може бути тут для Postgres? Додавши код, …

3
Як виправити помилку 'TypeError: потрібне ціле число (отримані байти типу)' при спробі запуску pyspark після встановлення іскри 2.4.4
Я встановив OpenJDK 13.0.1 та python 3.8 та spark 2.4.4. Інструкція для перевірки встановлення полягає у запуску. \ Bin \ pyspark з кореня установки іскри. Я не впевнений, чи пропустив я крок в установці іскри, наприклад встановлення якоїсь змінної середовища, але не можу знайти більш детальних інструкцій. Я можу запустити …

1
pandasUDF та pyarrow 0.15.0
Нещодавно я почав отримувати купу помилок у ряді pysparkзавдань, що працюють на кластерах EMR. Помилки є java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Вони, схоже, трапляються у applyфункціях …

1
Apache Spark: вплив переділу, сортування та кешування на з'єднання
Я вивчаю поведінку Спарка під час приєднання таблиці до себе. Я використовую Databricks. Мій фіктивний сценарій: Читання зовнішньої таблиці як фрейму A (основні файли у форматі delta) Визначте фрейм даних B як кадр даних A із вибраними лише певними стовпцями З'єднайте фрейми даних A і B у колонці1 та колонці2 …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.