Apache Spark: Як використовувати pyspark з Python 3


91

Я побудував Spark 1.4 від майстра розробки GH, і збірка пройшла нормально. Але коли я роблю a, bin/pysparkя отримую версію Python 2.7.9. Як я можу це змінити?


7
Для тих, хто шукає, як це зробити:, PYSPARK_DRIVER_PYTHON=ipython3 PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pysparkв цьому випадку він запускає ноутбук IPython 3.
чакраварти

Відповіді:


141

Просто встановіть змінну середовища:

export PYSPARK_PYTHON=python3

якщо ви хочете, щоб це було постійною зміною, додайте цей рядок до сценарію pyspark.


Змінні середовища можна редагувати в / etc / profile. Не забудьте виконати "source / etc / profile" після збереження профілю, щоб зміни можна було негайно ввести в дію.
Фітик

1
Очевидно, використовувати export PYSPARK_PYTHON=python3.5для Python 3.5
Фітик

4
Це краще , щоб додати це $SPARK_HOME/conf/spark-env.shтак spark-submitвикористовує той же перекладач , а також.
flow2k

@ flow2k це краща ідея. Tnx
Mohammad RaoofNia

32
PYSPARK_PYTHON=python3 
./bin/pyspark

Якщо ви хочете запустити програму IPython Notebook, напишіть:

PYSPARK_PYTHON=python3 
PYSPARK_DRIVER_PYTHON=ipython 
PYSPARK_DRIVER_PYTHON_OPTS="notebook" 
./bin/pyspark

Якщо python3він недоступний, вам потрібно пройти шлях до нього.

Майте на увазі, що чинна документація (станом на 1.4.1) має застарілі інструкції. На щастя, його виправили .


1
Я вважаю, що ваша команда для ноутбука IPython неправильна. Має бути таким: PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = ipython3 PYSPARK_DRIVER_PYTHON_OPTS = "notebook" ./bin/pyspark
SpiderRico

@ChrisNielsen У терміналі.
Piotr Migdal

@ChrisNielsen У Linux або OS X є термінал / консоль. Я не уявляю, як це працює під Windows (коли в Windows я використовував Spark лише в контейнері Docker).
Piotr Migdal

@SpiderRico На моєму Mac це, здається, не працює. Щоб блокнот Jupyter працював для Spark, використовуйте наступне. PYSPARK_PYTHON = python3 PYSPARK_DRIVER_PYTHON = jupyter PYSPARK_DRIVER_PYTHON_OPTS = "блокнот" ./bin/pyspark
Хенк Чан,

9

1, редагувати профіль:vim ~/.profile

2, додайте код у файл: export PYSPARK_PYTHON=python3

3, виконайте команду: source ~/.profile

4, ./bin/pyspark


4

Загляньте у файл. Рядок shebang, ймовірно, вказує на двійковий файл 'env', який шукає шлях до першого сумісного виконуваного файлу.

Ви можете змінити python на python3. Змініть env, щоб використовувати безпосередньо кодований двійковий файл python3. Або виконайте двійковий файл безпосередньо за допомогою python3 і опустіть рядок shebang.


1
Так, розгляд файлу допоміг. Потрібно для встановлення PYSPARK_PYTHONзмінної середовища.
чакраварти

4

Для Jupyter Notebook відредагуйте spark-env.shфайл, як показано нижче, з командного рядка

$ vi $SPARK_HOME/conf/spark-env.sh

Перейдіть до нижньої частини файлу та скопіюйте ці рядки

export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

Потім просто запустіть наступну команду, щоб запустити pyspark у блокноті

$ pyspark
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.