Запитання з тегом «scikit-learn»

Scikit-learn - це модуль Python, що складається з простого та ефективного інструменту для машинного навчання, обміну даними та аналізу даних. Він побудований на NumPy, SciPy та matplotlib. Він поширюється за ліцензією BSD на 3 статті.

2
Ефективне зменшення розмірності для великих наборів даних
У мене є набір даних з ~ 1M рядками та ~ 500K розрідженими функціями. Я хочу зменшити розмірність десь в порядку щільних особливостей 1К-5К. sklearn.decomposition.PCAне працює над обмеженими даними, і я намагався використовувати, sklearn.decomposition.TruncatedSVDале досить швидко отримав помилку пам'яті. Які мої варіанти ефективного зменшення розмірності в цьому масштабі?

1
Параметр scikit-learn n_jobs про використання процесора та пам'яті
У більшості оцінювачів на scikit-learn є n_jobsпараметр в fit/ predictметодах для створення паралельних завдань з використанням joblib. Я помітив, що налаштування його -1створює лише 1 Python-процес і збільшує кількість ядер, в результаті чого використання процесора досягає 2500% вгорі. Це сильно відрізняється від встановлення його на якесь додатне ціле число> 1, …

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Як використовувати розповсюдження міток Scikit-Learn для структурованих даних графіків?
У рамках мого дослідження мені цікаво розповсюдження міток на графіку. Мене особливо цікавлять ці два методи: Сяоїн Чжу та Зубін Гахрамані. Навчання з мічених та не маркованих даних із розповсюдженням міток. Технічний звіт CMU-CALD-02-107, Університет Карнегі Меллон, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Денджонг Чжоу, Олів'є Буске, Томас Навін Лал, Джейсон Вестон, Бернхард Шелкопфф. …

3
Яка різниця між хеширующим векторизатором і векторизатором tfidf
Я перетворюю корпус текстових документів у слова векторів для кожного документа. Я спробував це за допомогою TfidfVectorizer та HashingVectorizer Я розумію, що "a HashingVectorizer" не враховує IDFоцінок, як TfidfVectorizer"". Причина, по якій я все ще працюю з a, HashingVectorizer- це гнучкість, яку вона дає під час роботи з величезними наборами …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Як кодувати клас з 24 000 категорій?
Зараз я працюю над логістичною регресійною моделлю для геноміки. Одне з полів введення, яке я хочу включити як коваріат, - це genes. Відомо близько 24 000 генів. Існує багато особливостей з цим рівнем мінливості в обчислювальній біології, і потрібні сотні тисяч зразків. Якщо я LabelEncoder()ці 24K гени а потім OneHotEncoder()їх …

3
Прогнозуйте найкращий час дзвінка
У мене є набір даних, що включає набір клієнтів у різних містах Каліфорнії, час виклику для кожного клієнта та стан виклику (Правда, якщо клієнт відповідає на дзвінок, і Неправильно, якщо клієнт не відповідає). Я повинен знайти відповідний час дзвінків для майбутніх клієнтів таким, щоб ймовірність відповісти на дзвінок висока. Отже, …

3
Побудова моделі машинного навчання для прогнозування врожайності на основі даних про навколишнє середовище
У мене є набір даних, що містить дані про температуру, опади та врожайність сої для ферми протягом 10 років (2005 - 2014). Я б хотів передбачити врожайність за 2015 рік на основі цих даних. Зверніть увагу, що в наборі даних є щоденні значення температури та опадів, але лише 1 значення …

2
Скільки часу займає класифікатор scikit для класифікації?
Я планую використовувати класифікатор лінійної підтримуючої машини scikit (SVM) для класифікації тексту на корпусі, що складається з 1 мільйона мічених документів. Що я планую зробити, це коли користувач вводить якесь ключове слово, класифікатор спочатку класифікує його до категорії, а потім подається запит на отримання інформації в документах цієї категорії категорії. …

1
Збалансовані дані, що спричиняють неправильну класифікацію на множині набору даних
Я працюю над класифікацією тексту, де маю 39 категорій / класів та 8,5 мільйонів записів. (У майбутньому дані та категорії будуть збільшуватися). Структура або формат моїх даних наступний. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary …

4
Інтерпретація дерева рішень у контексті імпортних ознак
Я намагаюся зрозуміти, як повністю зрозуміти процес прийняття рішення щодо моделі класифікації дерева рішень, побудованої за допомогою sklearn. 2 головних аспекту, на які я дивлюся, - це графічне зображення дерева та перелік імпортів функцій. Я не розумію, як визначається важливість функції в контексті дерева. Наприклад, ось мій список імпортів функцій: …

3
Експорт ваг (формула) з випадкових лісових регресорів у Scikit-Learn
Я підготував модель прогнозування за допомогою Scikit Learn in Python (Random Forest Regressor) і хочу якось витягнути ваги кожної функції, щоб створити інструмент Excel для ручного прогнозування. Єдине, що я знайшов - це, model.feature_importances_але це не допомагає. Чи є спосіб досягти цього? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest …

1
Вибір функцій для підтримуючих векторних машин
Моє питання триразове У контексті "Kernelized" підтримують векторні машини Чи бажаний вибір змінних / особливостей - тим більше, що ми регулюємо параметр C для запобігання перенастроювання, а головним мотивом введення ядер до SVM є збільшення розмірності проблеми, у такому випадку зменшення розмірів за допомогою зменшення параметрів здається протиінтуїтивним Якщо відповідь …

2
Чи існує метод, протилежний зменшенню розмірності?
Я новачок у галузі машинного навчання, але зробив свою частку обробки сигналів. Будь ласка, повідомте мене, якщо це питання було неправильно позначено. У мене є двовимірні дані, які визначаються щонайменше трьома змінними, із дуже нелінійним способом, занадто складним для моделювання. Я мав різний рівень успіху в витягуванні двох основних компонентів …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.