Запитання з тегом «python»

Використовуйте для наукових даних питання, пов'язані з мовою програмування Python. Не призначений для загальних питань кодування (-> stackoverflow).

4
Як ініціалізувати нову модель word2vec з попередньо підготовленими вагами моделі?
Я використовую бібліотеку Gensim у python для використання та навчання моделі word2vector. Нещодавно я розглядав ініціалізацію ваги моєї моделі з якоюсь попередньо навченою моделлю word2vec, такою як (попередньо вивчена модель GoogleNewDataset). Я боровся з цим пару тижнів. Тепер я просто дізнався, що в gesim є функція, яка може допомогти мені …

8
Чи підходить Python для великих даних
Я читаю в цьому дописі, чи підходить мова R для Big Data, яка становить великі дані 5TB, і хоча це добре допомагає надавати інформацію про доцільність роботи з даними такого типу, в Rній надається дуже мало інформації Python. Мені було цікаво, чи Pythonможна працювати і з такою кількістю даних.
14 bigdata  python 

3
Що означає вихід моделі model.predict від Keras?
Я створив модель LSTM для передбачення повторюваних питань на офіційному наборі даних Quora. Тестові мітки дорівнюють 0 або 1. 1 означає, що пара запитань є дублікатом. Після побудови моделі за допомогою model.fitя тестую модель, використовуючи model.predictдані тесту. Вихід - це масив значень, таких як нижче: [ 0.00514298] [ 0.15161049] [ …


1
XGBRegressor проти xgboost.train величезна різниця швидкостей?
Якщо я треную свою модель, використовуючи наступний код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) він закінчується приблизно за 1 хвилину. Якщо я треную свою модель, використовуючи метод …

1
Перетворити стовпець панди з типу даних int до часової позначки
У мене є кадр даних, який, серед іншого, містить стовпчик кількості минулих мілісекунд з 1970-1-1 років. Мені потрібно конвертувати цей стовпець ints у дані часових позначок, тому я можу в кінцевому підсумку перетворити його у стовпчик даних timetime, додавши серію стовпців часової мітки до серії, яка повністю складається зі значень …

5
Особливість важливості у науковому навчанні Random Forest демонструє дуже високий рівень стандартного відхилення
Я використовую випадковий класифікатор лісового науку і хочу вивчити важливість функції, наприклад, у цьому прикладі . Однак мій результат зовсім інший, в тому сенсі, що значення важливості функції майже завжди більше, ніж значення функції (див. Додане зображення). Чи можна мати таку поведінку, чи я роблю деякі помилки, будуючи це? Мій …

1
Багатовимірний та багатовимірний прогноз часових рядів (RNN / LSTM) Керас
Я намагався зрозуміти, як представляти та формувати дані, щоб скласти багатовимірний та багатоваріантний прогноз часових рядів за допомогою Keras (або TensorFlow), але мені все ще незрозуміло, прочитавши багато публікацій блогу / навчальних посібників / документації про представлення даних у правильної форми (більшість прикладів - трохи менше) Мій набір даних: кілька …
12 python  keras  rnn  lstm 

2
Втрати та точність валідації залишаються постійними
Я намагаюся реалізувати цей документ на наборі медичних зображень. Я роблю це в Керасі. Мережа, по суті, складається з 4 шарів conv і max-пулу з подальшим повністю пов'язаним шаром і м'яким класифікатором max. Наскільки я знаю, я дотримувався архітектури, згаданої в роботі. Однак втрати та точність перевірки просто залишаються рівними …

3
Довідка щодо НЕР у NLTK
Я деякий час працюю в NLTK, використовуючи Python. Проблема, з якою я стикаюсь, полягає в тому, що з моїми спеціальними даними вони не допомагають навчати НЕР в NLTK Вони використовували MaxEnt і навчали його на корпусі ACE. Я багато шукав в Інтернеті, але не зміг знайти жодного способу, який би …

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
Ефективне зменшення розмірності для великих наборів даних
У мене є набір даних з ~ 1M рядками та ~ 500K розрідженими функціями. Я хочу зменшити розмірність десь в порядку щільних особливостей 1К-5К. sklearn.decomposition.PCAне працює над обмеженими даними, і я намагався використовувати, sklearn.decomposition.TruncatedSVDале досить швидко отримав помилку пам'яті. Які мої варіанти ефективного зменшення розмірності в цьому масштабі?

1
Параметр scikit-learn n_jobs про використання процесора та пам'яті
У більшості оцінювачів на scikit-learn є n_jobsпараметр в fit/ predictметодах для створення паралельних завдань з використанням joblib. Я помітив, що налаштування його -1створює лише 1 Python-процес і збільшує кількість ядер, в результаті чого використання процесора досягає 2500% вгорі. Це сильно відрізняється від встановлення його на якесь додатне ціле число> 1, …

2
Як я можу відповідати категоричним типам даних для випадкової класифікації лісів?
Мені потрібно знайти точність набору даних, застосовуючи алгоритм Random Forest. Але мій тип мого набору даних є і категоричним, і числовим. Коли я намагався вкласти ці дані, я отримую помилку. 'Вхід містить NaN, нескінченність або занадто велике значення для dtype (' float32 ')'. Можливо, проблема полягає в об'єктних типах даних. …

3
Замініть всі числові значення у фреймі даних pyspark на постійне значення
Розглянемо фрейм даних Pyspark, що складається з 'null' елементів та числових елементів. Взагалі числові елементи мають різні значення. Як можна замінити всі числові значення фрейму даних на постійне числове значення (наприклад, значення 1)? Спасибі заздалегідь! Приклад для фрейму даних pyspark: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.