Наука про дані scikit-learn

2

Ефективне зменшення розмірності для великих наборів даних

У мене є набір даних з ~ 1M рядками та ~ 500K розрідженими функціями. Я хочу зменшити розмірність десь в порядку щільних особливостей 1К-5К. sklearn.decomposition.PCAне працює над обмеженими даними, і я намагався використовувати, sklearn.decomposition.TruncatedSVDале досить швидко отримав помилку пам'яті. Які мої варіанти ефективного зменшення розмірності в цьому масштабі?

12 python scikit-learn dimensionality-reduction

1

Параметр scikit-learn n_jobs про використання процесора та пам'яті

У більшості оцінювачів на scikit-learn є n_jobsпараметр в fit/ predictметодах для створення паралельних завдань з використанням joblib. Я помітив, що налаштування його -1створює лише 1 Python-процес і збільшує кількість ядер, в результаті чого використання процесора досягає 2500% вгорі. Це сильно відрізняється від встановлення його на якесь додатне ціле число> 1, …

12 python scikit-learn

3

Чи є якісні нестандартні мовні моделі для python?

Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Як використовувати розповсюдження міток Scikit-Learn для структурованих даних графіків?

У рамках мого дослідження мені цікаво розповсюдження міток на графіку. Мене особливо цікавлять ці два методи: Сяоїн Чжу та Зубін Гахрамані. Навчання з мічених та не маркованих даних із розповсюдженням міток. Технічний звіт CMU-CALD-02-107, Університет Карнегі Меллон, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Денджонг Чжоу, Олів'є Буске, Томас Навін Лал, Джейсон Вестон, Бернхард Шелкопфф. …

11 scikit-learn graphs

3

Яка різниця між хеширующим векторизатором і векторизатором tfidf

Я перетворюю корпус текстових документів у слова векторів для кожного документа. Я спробував це за допомогою TfidfVectorizer та HashingVectorizer Я розумію, що "a HashingVectorizer" не враховує IDFоцінок, як TfidfVectorizer"". Причина, по якій я все ще працюю з a, HashingVectorizer- це гнучкість, яку вона дає під час роботи з величезними наборами …

11 nlp scikit-learn text-mining tfidf

3

Кращі мови для наукових обчислень [закрито]

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Як кодувати клас з 24 000 категорій?

Зараз я працюю над логістичною регресійною моделлю для геноміки. Одне з полів введення, яке я хочу включити як коваріат, - це genes. Відомо близько 24 000 генів. Існує багато особливостей з цим рівнем мінливості в обчислювальній біології, і потрібні сотні тисяч зразків. Якщо я LabelEncoder()ці 24K гени а потім OneHotEncoder()їх …

10 machine-learning keras scikit-learn

3

Прогнозуйте найкращий час дзвінка

У мене є набір даних, що включає набір клієнтів у різних містах Каліфорнії, час виклику для кожного клієнта та стан виклику (Правда, якщо клієнт відповідає на дзвінок, і Неправильно, якщо клієнт не відповідає). Я повинен знайти відповідний час дзвінків для майбутніх клієнтів таким, щоб ймовірність відповісти на дзвінок висока. Отже, …

10 machine-learning classification regression scikit-learn

3

Побудова моделі машинного навчання для прогнозування врожайності на основі даних про навколишнє середовище

У мене є набір даних, що містить дані про температуру, опади та врожайність сої для ферми протягом 10 років (2005 - 2014). Я б хотів передбачити врожайність за 2015 рік на основі цих даних. Зверніть увагу, що в наборі даних є щоденні значення температури та опадів, але лише 1 значення …

10 python scikit-learn pandas

2

Скільки часу займає класифікатор scikit для класифікації?

Я планую використовувати класифікатор лінійної підтримуючої машини scikit (SVM) для класифікації тексту на корпусі, що складається з 1 мільйона мічених документів. Що я планую зробити, це коли користувач вводить якесь ключове слово, класифікатор спочатку класифікує його до категорії, а потім подається запит на отримання інформації в документах цієї категорії категорії. …

10 machine-learning classification python scikit-learn

1

Збалансовані дані, що спричиняють неправильну класифікацію на множині набору даних

Я працюю над класифікацією тексту, де маю 39 категорій / класів та 8,5 мільйонів записів. (У майбутньому дані та категорії будуть збільшуватися). Структура або формат моїх даних наступний. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary …

9 machine-learning python classification scikit-learn multiclass-classification

4

Інтерпретація дерева рішень у контексті імпортних ознак

Я намагаюся зрозуміти, як повністю зрозуміти процес прийняття рішення щодо моделі класифікації дерева рішень, побудованої за допомогою sklearn. 2 головних аспекту, на які я дивлюся, - це графічне зображення дерева та перелік імпортів функцій. Я не розумію, як визначається важливість функції в контексті дерева. Наприклад, ось мій список імпортів функцій: …

9 machine-learning visualization scikit-learn data decision-trees

3

Експорт ваг (формула) з випадкових лісових регресорів у Scikit-Learn

Я підготував модель прогнозування за допомогою Scikit Learn in Python (Random Forest Regressor) і хочу якось витягнути ваги кожної функції, щоб створити інструмент Excel для ручного прогнозування. Єдине, що я знайшов - це, model.feature_importances_але це не допомагає. Чи є спосіб досягти цього? def performRandomForest(X_train, y_train, X_test, y_test): '''Perform Random Forest …

9 python predictive-modeling regression random-forest scikit-learn

1

Вибір функцій для підтримуючих векторних машин

Моє питання триразове У контексті "Kernelized" підтримують векторні машини Чи бажаний вибір змінних / особливостей - тим більше, що ми регулюємо параметр C для запобігання перенастроювання, а головним мотивом введення ядер до SVM є збільшення розмірності проблеми, у такому випадку зменшення розмірів за допомогою зменшення параметрів здається протиінтуїтивним Якщо відповідь …

9 svm feature-selection scikit-learn

2

Чи існує метод, протилежний зменшенню розмірності?

Я новачок у галузі машинного навчання, але зробив свою частку обробки сигналів. Будь ласка, повідомте мене, якщо це питання було неправильно позначено. У мене є двовимірні дані, які визначаються щонайменше трьома змінними, із дуже нелінійним способом, занадто складним для моделювання. Я мав різний рівень успіху в витягуванні двох основних компонентів …

9 machine-learning scikit-learn

Запитання з тегом «scikit-learn»