Запитання з тегом «scikit-learn»

Scikit-learn - це модуль Python, що складається з простого та ефективного інструменту для машинного навчання, обміну даними та аналізу даних. Він побудований на NumPy, SciPy та matplotlib. Він поширюється за ліцензією BSD на 3 статті.

1
Як боротися зі строковими мітками в багатокласовій класифікації з керами?
Я новачок у машинному навчанні та керах, і зараз працюю над класовою проблемою класифікації зображень за допомогою керас. Вхід позначено тегом зображення. Після деякої попередньої обробки дані тренінгу представлені в списку Python як: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] "собака", "кішка" та "птах" - це позначки класу. Я думаю, що для …

4
Підвищити швидкість впровадження t-sne в python для величезних даних
Я хотів би зробити скорочення розмірності на майже 1 мільйон векторів кожних 200 вимірювань ( doc2vec). Я використовую для цього TSNEреалізацію з sklearn.manifoldмодуля, і головна проблема - складність у часі. Навіть при method = barnes_hutцьому швидкість обчислення залишається низькою. Деякий час навіть не вистачає пам'яті. Я працюю на 48-ядерному процесорі …

1
Алгоритми кластеризації тексту
У мене є проблема об’єднання величезної кількості речень у групи за їх значеннями. Це схоже на проблему, коли у вас є багато речень і хочете згрупувати їх за значеннями. Які алгоритми пропонуються для цього? Я не знаю кількість кластерів заздалегідь (а оскільки надходить більше даних, кластери також можуть змінюватися), які …

5
збільшують теплову карту для новонароджених
Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Об'єднання рідких та щільних даних у машинному навчанні для підвищення продуктивності
У мене є рідкісні функції, які є прогностичними, також у мене є деякі щільні риси, які також є прогностичними. Мені потрібно поєднати ці функції разом, щоб поліпшити загальну продуктивність класифікатора. Тепер, справа в тому, що я намагаюся поєднати їх разом, щільні риси, як правило, більше домінують над розрідженими характеристиками, отже, …

2
Де в робочому процесі ми маємо мати справу з відсутніми даними?
Я будую робочий процес для створення моделей машинного навчання (в моєму випадку, використовуючи Python pandasі sklearnпакунки) з даних, витягнутих з дуже великої бази даних (тут, Vertica за допомогою SQL і pyodbc), і критичний крок у цьому процесі передбачає введення відсутніх значення предикторів. Це зрозуміло в рамках однієї платформи аналітики чи …

6
Яка причина прийняття перетворення журналу кількох безперервних змінних?
Я займався питаннями класифікації, і читав код та підручники багатьох людей. Одне, що я помітив, - це те, що багато людей приймають np.logабо logбезперервну змінну, наприклад, loan_amountі applicant_incomeт.д. Я просто хочу зрозуміти причину цього. Чи допомагає це покращити точність прогнозування нашої моделі. Це обов’язково? чи є якась логіка за цим? …

1
Метод озвучення RandomForestClassifier OOB
Чи є випадкова реалізація лісу в scikit-learn, використовуючи середню точність, як метод його оцінювання для оцінки похибки узагальнення за допомогою зразків з мішків? Це не зазначено в документації, але метод score () повідомляє про середню точність. У мене сильно незбалансований набір даних, і я використовую AUC ROC як мій показник …

5
Прогнозування подібності вироку
Я хочу вирішити таку проблему: у мене є набір речень як мій набір даних, і я хочу мати можливість ввести нове речення та знайти речення, яке нове є найбільш подібним до цього в наборі даних. Приклад виглядає так: Нове речення: " I opened a new mailbox" Прогнозування на основі даних: …

2
Як працює SelectKBest?
Я переглядаю цей підручник: https://www.dataquest.io/mission/75/improving-your-submission У розділі 8, знаходячи найкращі функції, відображається наступний код. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # Get the raw p-values …

3
Рамка даних Pandas до DMatrix
Я намагаюся запустити xgboost в scikit learn. І я використовую лише Pandas для завантаження даних у рамки даних. Як я повинен використовувати pandas df з xgboost. Мене бентежить рутина DMatrix, необхідна для запуску xgboost algo.

1
Особливість важливості з високою кардинальністю для регресії (числова змінна залежність)
Я намагався використовувати імпорт функцій з Random Forests, щоб здійснити деякий емпіричний вибір функції для проблеми регресії, де всі функції є категоричними і багато з них мають багато рівнів (порядку 100-1000). Зважаючи на те, що одне гаряче кодування створює фіктивну змінну для кожного рівня, імпорт функцій - для кожного рівня, …

3
Масове перетворення категоричних стовпців у пандах (не одноразове кодування)
У мене є рамки даних панди з тоннами категоричних стовпців, які я планую використовувати в дереві рішень з scikit-learn. Мені потрібно перетворити їх на числові значення (не один гарячий вектор). Я можу це зробити з LabelEncoder від scikit-learn. Проблема в тому, що їх занадто багато, і я не хочу їх …

1
Вибір особливостей за допомогою імпортів функцій у випадкових лісах із науковим досвідом
Я побудував схему імпортних функцій у випадкових лісах за допомогою наукової роботи . Для того, щоб покращити прогнозування за допомогою випадкових лісів, як я можу використовувати інформацію про ділянки для видалення функцій? Тобто як визначити, чи є марка марною або навіть гіршою, що зменшує продуктивність випадкових лісів, спираючись на інформацію …

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.