Як зв’язати PyCharm з PySpark?


81

Я новачок у роботі з apache spark, і, мабуть, я встановив apache-spark з homebrew у своєму macbook:

Last login: Fri Jan  8 12:52:04 on console
user@MacBook-Pro-de-User-2:~$ pyspark
Python 2.7.10 (default, Jul 13 2015, 12:05:58)
[GCC 4.2.1 Compatible Apple LLVM 6.1.0 (clang-602.0.53)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
16/01/08 14:46:44 INFO SparkContext: Running Spark version 1.5.1
16/01/08 14:46:46 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
16/01/08 14:46:47 INFO SecurityManager: Changing view acls to: user
16/01/08 14:46:47 INFO SecurityManager: Changing modify acls to: user
16/01/08 14:46:47 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(user); users with modify permissions: Set(user)
16/01/08 14:46:50 INFO Slf4jLogger: Slf4jLogger started
16/01/08 14:46:50 INFO Remoting: Starting remoting
16/01/08 14:46:51 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://sparkDriver@192.168.1.64:50199]
16/01/08 14:46:51 INFO Utils: Successfully started service 'sparkDriver' on port 50199.
16/01/08 14:46:51 INFO SparkEnv: Registering MapOutputTracker
16/01/08 14:46:51 INFO SparkEnv: Registering BlockManagerMaster
16/01/08 14:46:51 INFO DiskBlockManager: Created local directory at /private/var/folders/5x/k7n54drn1csc7w0j7vchjnmc0000gn/T/blockmgr-769e6f91-f0e7-49f9-b45d-1b6382637c95
16/01/08 14:46:51 INFO MemoryStore: MemoryStore started with capacity 530.0 MB
16/01/08 14:46:52 INFO HttpFileServer: HTTP File server directory is /private/var/folders/5x/k7n54drn1csc7w0j7vchjnmc0000gn/T/spark-8e4749ea-9ae7-4137-a0e1-52e410a8e4c5/httpd-1adcd424-c8e9-4e54-a45a-a735ade00393
16/01/08 14:46:52 INFO HttpServer: Starting HTTP Server
16/01/08 14:46:52 INFO Utils: Successfully started service 'HTTP file server' on port 50200.
16/01/08 14:46:52 INFO SparkEnv: Registering OutputCommitCoordinator
16/01/08 14:46:52 INFO Utils: Successfully started service 'SparkUI' on port 4040.
16/01/08 14:46:52 INFO SparkUI: Started SparkUI at http://192.168.1.64:4040
16/01/08 14:46:53 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
16/01/08 14:46:53 INFO Executor: Starting executor ID driver on host localhost
16/01/08 14:46:53 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 50201.
16/01/08 14:46:53 INFO NettyBlockTransferService: Server created on 50201
16/01/08 14:46:53 INFO BlockManagerMaster: Trying to register BlockManager
16/01/08 14:46:53 INFO BlockManagerMasterEndpoint: Registering block manager localhost:50201 with 530.0 MB RAM, BlockManagerId(driver, localhost, 50201)
16/01/08 14:46:53 INFO BlockManagerMaster: Registered BlockManager
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 1.5.1
      /_/

Using Python version 2.7.10 (default, Jul 13 2015 12:05:58)
SparkContext available as sc, HiveContext available as sqlContext.
>>>

Я хотів би почати грати, щоб дізнатись більше про MLlib. Однак я використовую Pycharm для написання сценаріїв на python. Проблема полягає в тому, що коли я заходжу до Pycharm і намагаюся зателефонувати до pyspark, Pycharm не може знайти модуль. Я спробував додати шлях до Pycharm наступним чином:

не можу зв’язати піхарм з іскорою

Потім з блогу я спробував це:

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/Users/user/Apps/spark-1.5.2-bin-hadoop2.4"

# Append pyspark  to Python Path
sys.path.append("/Users/user/Apps/spark-1.5.2-bin-hadoop2.4/python/pyspark")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")

except ImportError as e:
    print ("Can not import Spark Modules", e)
    sys.exit(1)

І все ще не можу почати використовувати PySpark з Pycharm, будь-яка ідея про те, як "пов'язати" PyCharm з apache-pyspark ?.

Оновлення:

Потім я шукаю apache-spark та шлях python, щоб встановити змінні середовища Pycharm:

шлях апаш-іскри:

user@MacBook-Pro-User-2:~$ brew info apache-spark
apache-spark: stable 1.6.0, HEAD
Engine for large-scale data processing
https://spark.apache.org/
/usr/local/Cellar/apache-spark/1.5.1 (649 files, 302.9M) *
  Poured from bottle
From: https://github.com/Homebrew/homebrew/blob/master/Library/Formula/apache-spark.rb

шлях python:

user@MacBook-Pro-User-2:~$ brew info python
python: stable 2.7.11 (bottled), HEAD
Interpreted, interactive, object-oriented programming language
https://www.python.org
/usr/local/Cellar/python/2.7.10_2 (4,965 files, 66.9M) *

Потім, маючи вищезазначену інформацію, я спробував встановити змінні середовища наступним чином:

конфігурація 1

Будь-яке уявлення про те, як правильно пов’язати Pycharm з pyspark?

Тоді, коли я запускаю сценарій python із наведеною вище конфігурацією, у мене є такий виняток:

/usr/local/Cellar/python/2.7.10_2/Frameworks/Python.framework/Versions/2.7/bin/python2.7 /Users/user/PycharmProjects/spark_examples/test_1.py
Traceback (most recent call last):
  File "/Users/user/PycharmProjects/spark_examples/test_1.py", line 1, in <module>
    from pyspark import SparkContext
ImportError: No module named pyspark

ОНОВЛЕННЯ: Тоді я спробував цю конфігурацію, запропоновану @ zero323

Конфігурація 1:

/usr/local/Cellar/apache-spark/1.5.1/ 

конф 1

вихід:

 user@MacBook-Pro-de-User-2:/usr/local/Cellar/apache-spark/1.5.1$ ls
CHANGES.txt           NOTICE                libexec/
INSTALL_RECEIPT.json  README.md
LICENSE               bin/

Конфігурація 2:

/usr/local/Cellar/apache-spark/1.5.1/libexec 

введіть тут опис зображення

вихід:

user@MacBook-Pro-de-User-2:/usr/local/Cellar/apache-spark/1.5.1/libexec$ ls
R/        bin/      data/     examples/ python/
RELEASE   conf/     ec2/      lib/      sbin/

Відповіді:


111

З пакетом PySpark (Spark 2.2.0 та новіші версії)

Після об’єднання SPARK-1267 ви зможете спростити процес, pipвстановивши Spark в середовищі, яке використовується для розробки PyCharm.

  1. Перейдіть у меню Файл -> Налаштування -> Інтерпретатор проектів
  2. Клацніть на кнопку встановлення та знайдіть PySpark

    введіть тут опис зображення

  3. Клацніть на кнопку встановити пакет.

Встановлення Spark вручну із користувачем

Створити конфігурацію запуску :

  1. Перейдіть до пункту Виконати -> Редагувати конфігурації
  2. Додайте нову конфігурацію Python
  3. Встановіть шлях сценарію таким чином, щоб він вказував на сценарій, який ви хочете виконати
  4. Редагуйте поле змінних середовища, щоб воно містило принаймні:

    • SPARK_HOME- вона повинна вказувати на каталог з інсталяцією Spark. Він повинен містити каталоги , такі як binspark-submit, spark-shellі так далі) і confspark-defaults.conf, spark-env.shі так далі)
    • PYTHONPATH- він повинен містити $SPARK_HOME/pythonі, за бажанням, $SPARK_HOME/python/lib/py4j-some-version.src.zipякщо не доступний інакше. some-versionмає відповідати версії Py4J, що використовується даною установкою Spark (0.8.2.1 - 1.5, 0.9 - 1.6, 0.10.3 - 2.0, 0.10.4 - 2.1, 0.10.4 - 2.2, 0.10.6 - 2.3, 0.10.7 - 2.4 )

      введіть тут опис зображення

  5. Застосуйте налаштування

Додайте бібліотеку PySpark до шляху інтерпретатора (потрібно для завершення коду) :

  1. Перейдіть у меню Файл -> Налаштування -> Інтерпретатор проектів
  2. Відкрийте налаштування перекладача, якого ви хочете використовувати з Spark
  3. Відредагуйте шляхи інтерпретатора, щоб він містив шлях до $SPARK_HOME/python (Py4J, якщо потрібно)
  4. Збережіть налаштування

За бажанням

  1. Встановіть або додайте до анотацій типу шляху, що відповідають встановленій версії Spark, для кращого завершення та виявлення статичних помилок (Застереження - я автор проекту).

Нарешті

Використовуйте нещодавно створену конфігурацію для запуску вашого сценарію.


9
До речі, ось як ви редагуєте шляхи інтерпретатора, принаймні в PyCharm 2016: jetbrains.com/help/pycharm/2016.1/… Виберіть кнопку "Показати шляхи для обраного інтерпретатора"
AlonL

3
У версії PyCharm для Mac (v-2017.2) перекладач проектів знаходиться в розділі Налаштування ... замість Файл / Налаштування
Випадкова надійність

1
Як додати варіант 1, як додати Spark JAR / пакети? наприклад, мені потрібні com.databricks: spark-redshift_2.10: 3.0.0-preview1
lfk

@lfk Або через конфігураційні файли ( spark-defaults.conf), або через аргументи подання - так само, як і у блокноті Jupyter . Аргументи подання можна визначити у змінних середовища PyCharm замість коду, якщо ви віддаєте перевагу цій опції.
10465355 говорить Reinstate Monica

38

Ось як я це вирішив на mac osx.

  1. brew install apache-spark
  2. Додайте це до ~ / .bash_profile

    export SPARK_VERSION=`ls /usr/local/Cellar/apache-spark/ | sort | tail -1`
    export SPARK_HOME="/usr/local/Cellar/apache-spark/$SPARK_VERSION/libexec"
    export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
    export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH
    
  3. Додайте pyspark та py4j до кореня вмісту (використовуйте правильну версію Spark):

    /usr/local/Cellar/apache-spark/1.6.1/libexec/python/lib/py4j-0.9-src.zip
    /usr/local/Cellar/apache-spark/1.6.1/libexec/python/lib/pyspark.zip
    

введіть тут опис зображення


яка версія pycharm це? Я перебуваю у версії спільноти 2016.1 і не бачу цього вікна.
ravindrab

2016.1 Im on osx, але він повинен бути подібним. Перейдіть у розділ "Налаштування". Клацніть на свій проект ліворуч.
Sthomps

Дякую. Це допомогло мені в IntelliJ IDEA, який не має налаштування Project Interpreter.
OneCricketeer

Не могли б ви пояснити, що робить додавання до кореневого вмісту? Мені не потрібно було цього робити ... Я просто помістив $SPARK_HOME/pythonу шлях до класу інтерпретатора і додав змінні середовища, і він працює, як очікувалося.
OneCricketeer

@ cricket_007 3-й момент: Add pyspark and py4j to content root (use the correct Spark version)допоміг мені в заповненні коду. Як ви це зробили, змінивши перекладача проектів?
Ajeet Shah

13

Ось установка, яка працює для мене (Win7 64bit, PyCharm2017.3CE)

Налаштування Intellisense:

  1. Клацніть Файл -> Налаштування -> Проект: -> Інтерпретатор проекту

  2. Клацніть на значок шестерні праворуч від спадного меню Project Interpreter

  3. Натисніть Більше ... у контекстному меню

  4. Виберіть перекладач, а потім натисніть піктограму "Показати шляхи" (праворуч унизу)

  5. Клацніть піктограму + два, додайте такі шляхи:

    \ python \ lib \ py4j-0.9-src.zip

    \ bin \ python \ lib \ pyspark.zip

  6. Клацніть OK, OK, OK

Продовжуйте і випробовуйте свої нові можливості інтеліссенсу.


1
Дуже потрібна відповідь :)
Рохіт Німмала

5

Налаштування pyspark у pycharm (windows)

File menu - settings - project interpreter - (gearshape) - more - (treebelowfunnel) - (+) - [add python folder form spark installation and then py4j-*.zip] - click ok

Переконайтеся, що SPARK_HOME встановлено в середовищі Windows, pycharm візьме звідти. Підтвердити :

Run menu - edit configurations - environment variables - [...] - show

За бажанням встановіть SPARK_CONF_DIR у змінних середовища.


4

Я використав наступну сторінку як посилання та зміг отримати pyspark / Spark 1.6.1 (встановлений через homebrew), імпортований у PyCharm 5.

http://renien.com/blog/accessing-pyspark-pycharm/

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/usr/local/Cellar/apache-spark/1.6.1"

# Append pyspark  to Python Path
sys.path.append("/usr/local/Cellar/apache-spark/1.6.1/libexec/python")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")
except ImportError as e:
    print ("Can not import Spark Modules", e)
sys.exit(1)

З урахуванням вищезазначеного, pyspark завантажується, але при спробі створити SparkContext я отримую помилку шлюзу. Існує проблема з Spark з домашньої писемності, тому я просто захопив Spark з веб-сайту Spark (завантажте попередньо створену версію для Hadoop 2.6 і пізніших версій) і вкажіть на каталоги spark та py4j під цим. Ось код у pycharm, який працює!

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6"

# Need to Explicitly point to python3 if you are using Python 3.x
os.environ['PYSPARK_PYTHON']="/usr/local/Cellar/python3/3.5.1/bin/python3"

#You might need to enter your local IP
#os.environ['SPARK_LOCAL_IP']="192.168.2.138"

#Path for pyspark and py4j
sys.path.append("/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6/python")
sys.path.append("/Users/myUser/Downloads/spark-1.6.1-bin-hadoop2.6/python/lib/py4j-0.9-src.zip")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print ("Successfully imported Spark Modules")
except ImportError as e:
    print ("Can not import Spark Modules", e)
    sys.exit(1)

sc = SparkContext('local')
words = sc.parallelize(["scala","java","hadoop","spark","akka"])
print(words.count())

Мені дуже допомогла ця інструкція, яка допомогла мені усунути неполадки в PyDev, а потім змусити працювати PyCharm - https://enahwe.wordpress.com/2015/11/25/how-to-configure-eclipse-for-developing -з-пітоном-і-іскрою-на-хадоопі /

Я впевнений, що хтось витратив кілька годин, вдарившись головою про свій монітор, намагаючись зробити це спрацьовуючим, тому, сподіваюся, це допоможе зберегти їх розум!


2

Я використовую condaдля управління своїми пакетами Python. Отже, все, що я робив у терміналі за межами PyCharm:

conda install pyspark

або, якщо ви хочете отримати попередню версію, скажімо 2.2.0, виконайте:

conda install pyspark=2.2.0

Це також автоматично втягує py4j. Тоді PyCharm більше не скаржився, import pyspark...і заповнення коду також спрацювало. Зверніть увагу, що мій проект PyCharm вже налаштований на використання інтерпретатора Python, який постачається з Anaconda.


1

Перегляньте це відео.

Припустимо, що ваш каталог spark python: /home/user/spark/python

Припустимо, що джерелом Py4j є: /home/user/spark/python/lib/py4j-0.9-src.zip

В основному ви додаєте каталог spark python та каталог py4j всередині цього до шляхів інтерпретатора. У мене недостатньо репутації, щоб опублікувати скріншот, інакше б я.

У відео користувач створює віртуальне середовище в самому pycharm, однак ви можете зробити віртуальне середовище поза pycharm або активувати вже існуюче віртуальне середовище, а потім запустити pycharm з ним і додати ці шляхи до шляхів інтерпретації віртуального середовища з в межах пічарму.

Я використовував інші методи для додавання іскри через змінні середовища bash, що чудово працює за межами pycharm, але з якихось причин вони не були розпізнані в pycharm, але цей метод спрацював ідеально.


@ml_student Я також зазначу, що якщо ви дотримуєтесь методу відео (що було б моєю рекомендацією щодо його швидкості та простоти), вам також потрібно буде створити екземпляр SparkContextоб’єкта на початку вашого сценарію. Я зауважую це, оскільки використання інтерактивної консолі pyspark через командний рядок автоматично створює контекст для вас, тоді як у PyCharm про це потрібно подбати самостійно; синтаксис буде:sc = SparkContext()
Джейсон Волосонович

1

Вам потрібно налаштувати PYTHONPATH, SPARK_HOME перед запуском IDE або Python.

Windows, редагує змінні середовища, додає іскровий python та py4j у

PYTHONPATH=%PYTHONPATH%;{py4j};{spark python}

Unix,

export PYTHONPATH=${PYTHONPATH};{py4j};{spark/python}

1

Найпростіший спосіб - це встановити PySpark через інтерпретатор проектів.

  1. Перейдіть до Файл - Налаштування - Проект - Інтерпретатор проекту
  2. Клацніть на значок + вгорі праворуч.
  3. Шукайте PySpark та інші пакунки, які ви хочете встановити
  4. Нарешті натисніть інсталювати пакет
  5. Зроблено!!

0

З документації :

Для запуску програм Spark на Python використовуйте скрипт bin / spark-submit, який знаходиться в каталозі Spark. Цей скрипт завантажить бібліотеки Java / Scala Spark і дозволить подавати програми в кластер. Ви також можете використовувати bin / pyspark для запуску інтерактивної оболонки Python.

Ви викликаєте свій сценарій безпосередньо за допомогою інтерпретатора CPython, що, на мою думку, викликає проблеми.

Спробуйте запустити свій сценарій за допомогою:

"${SPARK_HOME}"/bin/spark-submit test_1.py

Якщо це спрацює, ви зможете змусити його працювати в PyCharm, встановивши інтерпретатор проекту на іскрову подачу.


ви повинні мати змогу змусити його працювати в PyCharm, встановивши інтерпретатор проекту на іскрову подачу - Спробував. Msgstr "Вибраний файл не є дійсним будинком для Python SDK". Те самеbin/pyspark
OneCricketeer

0

Я дотримувався навчальних посібників в режимі он-лайн і додав змінні env до .bashrc:

# add pyspark to python
export SPARK_HOME=/home/lolo/spark-1.6.1
export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.9-src.zip:$PYTHONPATH

Потім я щойно отримав значення в SPARK_HOME та PYTHONPATH для pycharm:

(srz-reco)lolo@K:~$ echo $SPARK_HOME 
/home/lolo/spark-1.6.1
(srz-reco)lolo@K:~$ echo $PYTHONPATH
/home/lolo/spark-1.6.1/python/lib/py4j-0.9-src.zip:/home/lolo/spark-1.6.1/python/:/home/lolo/spark-1.6.1/python/lib/py4j-0.9-src.zip:/home/lolo/spark-1.6.1/python/:/python/lib/py4j-0.8.2.1-src.zip:/python/:

Потім я скопіював його у Запуск / Налагодження конфігурацій -> Змінні середовища сценарію.


0

Я використовував pycharm для зв’язку python та spark. У мене на ПК було попередньо встановлено Java і Spark.

Це кроки, якими я дотримувався

  1. Створити новий проект

  2. У Налаштуваннях для нового проекту -> Я вибрав Python3.7 (venv) як свій python. Це файл python.exe, присутній у папці venv у моєму новому проекті. Ви можете надати будь-який python, який є у вашому ПК.

  3. У налаштуваннях -> Структура проекту -> Додати Content_Root

    Я додав дві папки zip як каталоги іскри

    1. C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7 \ python \ lib \ py4j-0.10.8.1-src.zip
    2. C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7 \ python \ lib \ pyspark.zip
  4. Створіть файл python всередині нового проекту. Потім перейдіть до Редагувати конфігурації (у спадному меню праворуч праворуч) і виберіть Змінні середовища

  5. Я використовував наведені нижче змінні середовища, і це добре працювало для мене

    1. PYTHONUNBUFFERED 1
    2. JAVA_HOME C: \ Program Files \ Java \ jre1.8.0_251
    3. PYSPARK_PYTHON C: \ Users \ USER \ PycharmProjects \ pyspark \ venv \ Scripts \ python.exe
    4. SPARK_HOME C: \ Users \ USER \ spark-3.0.0-preview2-bin-hadoop2.7
    5. HADOOP_HOME C: \ Users \ USER \ winutils

    Ви можете додатково завантажити winutils.exe і помістити його в шлях C: \ Users \ USER \ winutils \ bin

  6. Вкажіть однакові змінні середовища всередині редагування конфігурацій -> шаблони

  7. Зайдіть в Налаштування -> Інтерпретатор проектів -> імпорт pyspark

  8. Запустіть свою першу програму піспарку!


0

Цей підручник від pyspark_xray , інструменту, який дозволяє налагоджувати код pyspark на PyCharm, може відповісти на ваше запитання. Він охоплює як Windows, так і Mac.

Підготовка

  • Відкрийте командний рядок java, запустіть команду, якщо з'явиться помилка, завантажте та встановіть java (версія 1.8.0_221 станом на квітень 2020)
  • Якщо у вас його немає, завантажте та встановіть PyCharm версію спільноти (версія 2020.1 станом на квітень 2020)
  • Якщо у вас його немає, завантажте та встановіть час виконання Anaconda Python 3.7
  • Завантажити та встановити іскровий останні Переднастроєні для Apache Hadoop (іскровим 2.4.5-бен-hadoop2.7 станом на квітень 2020 року, 200 + розмір MB) локально
    • Windows :
      • якщо у вас немає інструменту розпакування, завантажте та встановіть безкоштовний інструмент 7zip для розпакування / розпакування файлів
      • витягніть вміст файлу spark tgz у папку c: \ spark-xxx-bin-hadoopx.x
      • дотримуйтесь кроків у цьому посібнику
        • встановивши winutils.exeв c:\spark-x.x.x-bin-hadoopx.x\binпапку, без цього виконуваного файлу ви зіткнетеся з помилкою під час запису вихідних даних движка
    • Мак :
      • витягнути вміст файлу spark tgz до папки \ Users [ІМЯ КОРИСТУВАЧА] \ spark-xxx-bin-hadoopx.x
  • встановити pyspark по pip install pysparkабоconda install pyspark

Запустити конфігурацію

Ви запускаєте програму Spark на кластері з командного рядка, видаючи spark-submitкоманду, яка подає завдання Spark в кластер. Але з PyCharm чи іншої IDE на локальному ноутбуці чи ПК spark-submitне можна використовувати для запуску завдання Spark. Натомість виконайте ці дії, щоб налаштувати конфігурацію запуску demo_app pyspark_xray на PyCharm

  • Встановити змінні середовища:
    • встановити HADOOP_HOMEзначенняC:\spark-2.4.5-bin-hadoop2.7
    • встановити SPARK_HOMEзначенняC:\spark-2.4.5-bin-hadoop2.7
  • скористайтеся Github Desktop або іншими інструментами git для клонування pyspark_xray з Github
  • PyCharm> Відкрити pyspark_xray як проект
  • Відкрийте PyCharm> Виконати> Редагувати конфігурації> За замовчуванням> Python і введіть наступні значення:
    • Змінні середовища (Windows):PYTHONUNBUFFERED=1;PYSPARK_PYTHON=python;PYTHONPATH=$SPARK_HOME/python;PYSPARK_SUBMIT_ARGS=pyspark-shell;
  • Відкрийте PyCharm> Виконати> Редагувати конфігурації, створіть нову конфігурацію Python, вкажіть сценарій на шлях driver.pypyspark_xray> demo_app

драйвер-запуск-конфігурація


-1

Найпростіший спосіб

Перейдіть до папки site-пакети вашої інсталяції anaconda / python, скопіюйте туди папки pyspark та pyspark.egg-info .

Перезапустіть pycharm, щоб оновити індекс. Згадані вище дві папки є у папці spark / python вашої інсталяції spark. Таким чином ви отримаєте пропозиції щодо заповнення коду також від pycharm.

Пакети сайтів можна легко знайти у вашій установці python. В anaconda його під anaconda / lib / pythonx.x / site-пакети


Таким чином, pycharm буде думати, що це ще одна проблема.
HS Rathore,

-1

Я спробував додати модуль pyspark через меню Project Interpreter, але цього було недостатньо ... існує ряд змінних системного середовища, які потрібно встановити як SPARK_HOMEі шлях до них /hadoop/bin/winutils.exe, щоб читати локальні файли даних. Вам також потрібно використовувати правильні версії Python, JRE, JDK, всі доступні у змінних системного середовища та PATH. Після багатого гуглиння інструкції у цих відео працювали

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.