Запитання з тегом «apache-spark-sql»

Apache Spark SQL - це інструмент для "обробки SQL та структурованих даних" на Spark, швидкій та загальній системі кластерних обчислень. Він може бути використаний для отримання даних з вулика, паркету тощо та запуску SQL-запитів над існуючими RDD та наборами даних.

5
Spark DataFrame groupBy та сортувати за спаданням (pyspark)
Я використовую pyspark (Python 2.7.9 / Spark 1.3.1) і маю фрейм даних GroupObject, який мені потрібно відфільтрувати та відсортувати за спаданням. Спроба досягти цього за допомогою цього шматка коду. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Але він видає таку помилку. sort() got an unexpected keyword argument 'ascending'

9
Витяг значень стовпців Dataframe як списку в Apache Spark
Я хочу перетворити рядок стовпця кадру даних у список. Що я можу знайти в DataframeAPI, це RDD, тому я спробував перетворити його назад у RDD, а потім застосувати toArrayфункцію до RDD. У цьому випадку довжина та SQL працюють нормально. Однак результат, який я отримав від RDD, має квадратні дужки навколо …

11
Як зберегти DataFrame безпосередньо у Hive?
Чи можна заощадити DataFrameна іскрі безпосередньо у вулику? Я спробував з перетворенням DataFrameв , Rddа потім зберегти у вигляді текстового файлу , а потім завантажуються в вулик. Але мені цікаво, чи можу я безпосередньо заощадити dataframeу вулику

8
Як видалити стовпці у фреймі даних pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Є два, id: bigintі я хочу видалити одного. Як я можу зробити?

10
Spark Dataframe розрізняє стовпці з дубльованою назвою
Отож, як я знаю у Spark Dataframe, для кількох стовпців може бути однакове ім’я, як показано на знімку кадру даних: [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0})), Row(a=107831, f=SparseVector(5, {0: 0.0, 1: …


6
Як написати модульні тести в Spark 2.0+?
Я намагався знайти розумний спосіб тестування SparkSessionза допомогою тестової системи JUnit. Хоча, мабуть, є хороші приклади SparkContext, я не міг зрозуміти, як отримати відповідний приклад, для якого він працює SparkSession, хоча він використовується в декількох місцях всередині бази тестування іскр . Я був би радий спробувати рішення, в якому також …

3
Spark SQL: застосувати агреговані функції до списку стовпців
Чи є спосіб застосувати сукупну функцію до всіх (або списку) стовпців фрейму даних, коли виконується groupBy? Іншими словами, чи є спосіб уникнути цього для кожного стовпця: df.groupBy("col1") .agg(sum("col2").alias("col2"), sum("col3").alias("col3"), ...)

1
Написання понад 50 мільйонів від Pyspark df до PostgresSQL, найкращий ефективний підхід
Що було б найефективнішим способом вставити мільйони записів, скажімо, 50 мільйонів із фрейму даних Spark до таблиць Postgres. У минулому я це робив від іскри до MSSQL, використовуючи опцію масової копії та розміру партії, яка теж була успішною. Чи є щось подібне, що може бути тут для Postgres? Додавши код, …

1
Іскра: АДС виконується багато разів
У мене є кадр даних із таким кодом: def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}") Map("one" -> "one", "two" -> "two") } val testUDF = udf(test _) df.withColumn("test", testUDF(col("lat"), col("lon"))) .withColumn("test1", col("test.one")) .withColumn("test2", col("test.two")) Тепер перевіривши журнали, я з’ясував, що для кожного рядка UDF виконується 3 …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.