Запитання з тегом «apache-spark»

Apache Spark - це відкритий джерело розповсюдження розповсюджених даних, написаний на Scala, що забезпечує уніфікований API та розподілений набір даних для користувачів. Випадки використання Apache Spark часто пов'язані з машинним / глибоким навчанням, обробкою графіків.

1
pandasUDF та pyarrow 0.15.0
Нещодавно я почав отримувати купу помилок у ряді pysparkзавдань, що працюють на кластерах EMR. Помилки є java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at org.apache.spark.sql.execution.python.EvalPythonExec$$anonfun$doExecute$1.apply(EvalPythonExec.scala:127)... Вони, схоже, трапляються у applyфункціях …

1
Apache Spark: вплив переділу, сортування та кешування на з'єднання
Я вивчаю поведінку Спарка під час приєднання таблиці до себе. Я використовую Databricks. Мій фіктивний сценарій: Читання зовнішньої таблиці як фрейму A (основні файли у форматі delta) Визначте фрейм даних B як кадр даних A із вибраними лише певними стовпцями З'єднайте фрейми даних A і B у колонці1 та колонці2 …

1
Іскра: АДС виконується багато разів
У мене є кадр даних із таким кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Тепер перевіривши журнали, я з’ясував, що для кожного рядка UDF виконується 3 …

3
Застосування функції Python до згрупованих даних Pandas DataFrame - який найбільш ефективний підхід для прискорення обчислень?
Я маю справу з досить великим Pandas DataFrame - мій набір даних нагадує таку dfнастройку: import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 = 541680 # .repeat( …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.