Як я можу імпортувати .csv файл у фрейми даних pyspark? Я навіть спробував прочитати файл csv в Pandas, а потім перетворив його в іскровий фреймворк за допомогою createDataFrame, але він все ще показує деяку помилку. Хтось може мене провести через це? Також скажіть, будь ласка, як я можу імпортувати файл xlsx? Я намагаюся імпортувати вміст CSV в рамки даних панд, а потім перетворити його в рамки даних іскри, але він показує помилку:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Мій код:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)