Запитання з тегом «pyspark»

3
Об’єднання декількох фреймів даних у рядку PySpark
У мене є кадри 10 даних pyspark.sql.dataframe.DataFrame, отриманих від , randomSplitяк (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)зараз , я хочу приєднатися до 9 td«S в один кадр даних, як я повинен робити …

4
Імпортуйте вміст файлу CSV у фрейми даних pyspark
Як я можу імпортувати .csv файл у фрейми даних pyspark? Я навіть спробував прочитати файл csv в Pandas, а потім перетворив його в іскровий фреймворк за допомогою createDataFrame, але він все ще показує деяку помилку. Хтось може мене провести через це? Також скажіть, будь ласка, як я можу імпортувати файл …
13 pyspark 

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Проблема з IPython / Jupyter на Spark (Нерозпізнаний псевдонім)
Я працюю над створенням набору VM для експерименту зі Spark, перш ніж витрачати гроші та витрачати гроші на створення кластеру з деяким обладнанням. Коротка примітка: Я є вченим з досвідом прикладного машинного навчання і трохи пішов з науки про дані. Я використовую інструменти для обчислень, рідко мені знадобиться їх налаштувати. …

2
Як конвертувати категоричні дані в числові дані в Pyspark
Я використовую ноутбук Ipython для роботи з програмами pyspark. У мене є файл CSV з великою кількістю категоричних стовпців, щоб визначити, чи потрапляє дохід під діапазон 50k або більше. Я хотів би виконати алгоритм класифікації, беручи всі вхідні дані для визначення діапазону доходів. Мені потрібно побудувати словник змінних до відображених …

1
Іскровий ALS: рекомендований для нових користувачів
Питання Як я можу передбачити рейтинг нового користувача в моделі ALS, що навчається в Spark? (Нове = не бачилося під час тренувань) Проблема Я переглядаю офіційний підручник Spark ALS тут: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Я в змозі створити хороший рекомендатор з гідним MSE, але я намагаюся ввести нові дані в модель. Підручник змінює …

1
Іскра, оптимально розділивши один RDD на два
У мене є великий набір даних, який мені потрібно розділити на групи за певними параметрами. Я хочу, щоб робота пройшла максимально ефективно. Я можу передбачити два способи цього Варіант 1 - Створіть карту з оригінального RDD та фільтра def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.