Запитання з тегом «pyspark»

API Spark Python (PySpark) надає Python модель програмування apache-spark.

13
Як змінити назви стовпців кадру даних у pyspark?
Я надходжу з фону панд, і я звик читати дані з файлів CSV у кадр даних, а потім просто змінювати імена стовпців на щось корисне за допомогою простої команди: df.columns = new_column_name_list Однак те ж не працює у фреймах даних pyspark, створених за допомогою sqlContext. Єдине рішення, з якого я …

2
Іскрові показники для Scala vs Python
Я віддаю перевагу Python над Scala. Але, оскільки Spark споконвічно написаний у Scala, я очікував, що мій код запуститься швидше у Scala, ніж версія Python з зрозумілих причин. З цим припущенням я думав вивчити та написати версію Scala деякого дуже поширеного коду попередньої обробки для приблизно 1 ГБ даних. Дані …

15
Як вимкнути журнал INFO в Spark?
Я встановив Spark за допомогою посібника AWS EC2, і я можу запустити програму за допомогою bin/pysparkсценарію, щоб дістатися до іскрового підказка, а також можу успішно виконати Швидкий старт. Однак я не можу за все життя зрозуміти, як зупинити весь багатослівний INFOжурнал після кожної команди. Я спробував майже кожен можливий сценарій …

2
Як додати постійний стовпець у Spark DataFrame?
Я хочу додати стовпчик у DataFrameз деяким довільним значенням (це однакове для кожного ряду). Я отримую помилку, коли використовую withColumnнаступне: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc in withColumn(self, colName, col) 1166 …

9
Як додати новий стовпець до Spark DataFrame (за допомогою PySpark)?
У мене є Spark DataFrame (використовуючи PySpark 1.5.1) і я хочу додати новий стовпець. Я пробував наступне без успіху: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Також отримано помилку, використовуючи це: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Тож як я …

19
імпорт pyspark в оболонці python
Це копія чужого запитання на іншому форумі, на яку ніколи не було відповіді, тому я подумав, що я його ще раз запитаю тут, як у мене те саме питання. (Див. Http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) На моїй машині Spark встановлено належним чином і я можу запускати програми python з модулями pyspark без помилок …

12
Завантажте файл CSV за допомогою іскри
Я новачок у Spark, і я намагаюся прочитати дані CSV з файлу із Spark. Ось що я роблю: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я очікую, що цей дзвінок дасть мені список двох перших стовпців мого файлу, але я отримую цю помилку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list …


4
Spark Kill Running Application
У мене запущена програма Spark, де вона займає всі ядра, де в інших моїх додатках не буде виділено жодного ресурсу. Я зробив кілька швидких досліджень, і люди запропонували використовувати команду YARN kill або / bin / spark-class для вбивства команди. Однак я використовую версію CDH, і / bin / spark-клас …

10
Фільтрувати стовпець кадру даних Pyspark зі значенням None
Я намагаюся відфільтрувати фрейм даних PySpark, який має Noneзначення рядка: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] і я можу правильно відфільтрувати за допомогою рядкового значення: df[df.dt_mvmt == '2016-03-31'] # some results here але це не вдається: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Але для кожної категорії точно …

5
як змінити стовпець Dataframe із типу String на тип Double у pyspark
У мене є фрейм даних із стовпцем як String. Я хотів змінити тип стовпця на Double type у PySpark. Ось такий шлях я зробив: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Просто хотів знати, чи це правильний спосіб це зробити, оскільки під час проходження логістичної регресії я отримую деяку …

5
Spark DataFrame groupBy та сортувати за спаданням (pyspark)
Я використовую pyspark (Python 2.7.9 / Spark 1.3.1) і маю фрейм даних GroupObject, який мені потрібно відфільтрувати та відсортувати за спаданням. Спроба досягти цього за допомогою цього шматка коду. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Але він видає таку помилку. sort() got an unexpected keyword argument 'ascending'

18
Як встановити версію python драйвера в іскрі?
Я використовую spark 1.4.0-rc2, щоб я міг використовувати python 3 з spark. Якщо я додаю export PYSPARK_PYTHON=python3до свого файлу .bashrc, я можу запустити іскру в інтерактивному режимі за допомогою python 3. Однак, якщо я хочу запустити автономну програму в локальному режимі, я отримую повідомлення про помилку: Exception: Python in worker …

9
показати різні значення стовпців у фреймі даних pyspark: python
Будь ласка, запропонуйте альтернативну структуру даних pyspark для Pandas df['col'].unique(). Я хочу перерахувати всі унікальні значення у стовпці pyspark dataframe. Не спосіб типу SQL (registertemplate, а потім SQL-запит для різних значень). Також мені це не потрібно groupby->countDistinct, натомість я хочу перевірити різні ЦІННОСТІ в цьому стовпці.

8
Як видалити стовпці у фреймі даних pyspark
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] >>> a.join(b, a.id==b.id, 'outer') DataFrame[id: bigint, julian_date: string, user_id: bigint, id: bigint, quan_created_money: decimal(10,0), quan_created_cnt: bigint] Є два, id: bigintі я хочу видалити одного. Як я можу зробити?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.