Запитання з тегом «scikit-learn»

Scikit-learn - це модуль Python, що складається з простого та ефективного інструменту для машинного навчання, обміну даними та аналізу даних. Він побудований на NumPy, SciPy та matplotlib. Він поширюється за ліцензією BSD на 3 статті.

8
Різниця між fit і fit_transform у моделях scikit_learn?
Я новачок у науці даних, і я не розумію різниці між методами fitі fit_transformнауками у навчанні. Чи може хтось просто пояснити, чому нам може знадобитися трансформація даних? Що означає відповідність моделі навчальних даних та перетворення на тестові дані? Чи означає це, наприклад, перетворення категоричних змінних у числа в поїзді та …

3
Коли використовувати One Hot Encoding vs LabelEncoder vs DictVectorizor?
Я вже деякий час будую моделі з категоричними даними, і коли в цій ситуації я за замовчуванням використовую функцію LabelEncoder scikit-learn для перетворення цих даних перед побудовою моделі. Я розумію різницю між OHE, LabelEncoderі DictVectorizorз точки зору того, що вони роблять , щоб дані, але то , що мені не …

11
SVM за допомогою scikit learn працює нескінченно і ніколи не завершує виконання
Я намагаюся запустити SVR за допомогою scikit learn (python) на навчальному наборі даних, що має 595605 рядків та 5 стовпців (функції) та тестовий набір даних, що має 397070 рядків. Дані попередньо оброблені та затверджені. Я можу успішно запустити тестові приклади, але, виконуючи за допомогою мого набору даних і дозволяючи йому …

6
рядки як особливості в дереві рішень / випадковому лісі
Я створюю деякі проблеми щодо застосування дерева рішень / випадкового лісу. Я намагаюся встановити проблему, яка має в якості функцій цифри, а також рядки (наприклад, назва країни). Тепер бібліотека scikit-learn приймає лише параметри як параметри, але я хочу вставити рядки так само, як вони несуть значну кількість знань. Як мені …


5
Чи має алгоритм вибору / покрокової регресії в scikit-learn?
Я працюю над проблемою із занадто великою кількістю функцій, і навчання моїх моделей відбувається занадто довго. Я реалізував алгоритм вибору вперед для вибору функцій. Однак мені було цікаво, чи має scikit-learn алгоритм вибору / покрокової регресії?

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Розуміння передбачуваної програми від MultiOutputClassifier
Я дотримуюсь цього прикладу на веб-сайті scikit-learn, щоб здійснити класифікацію багатовивідних даних з моделлю Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = …

3
Як змусити ваги бути негативними при лінійній регресії
Я використовую стандартну лінійну регресію з використанням scikit-learn в python. Однак я хотів би змусити ваги бути позитивними для кожної риси (не від'ємною), чи я можу це досягти? Я шукав документацію, але не міг знайти спосіб досягти цього. Я розумію, що я не можу отримати найкраще рішення, але мені потрібно, …

4
Scikit-learn: отримання SGDClassifier для прогнозування, а також логістичної регресії
Способом навчання логістичної регресії є використання стохастичного градієнтного спуску, яке scikit-learn пропонує інтерфейс. Що я хотів би зробити, це взяти SGDClassifier для scikit-learn і мати його так, як логістична регресія тут . Однак я повинен бракувати деяких удосконалень машинного навчання, оскільки мої бали не рівноцінні. Це мій поточний код. Що …

5
Розрахунок дивергенції KL в Python
Я досить новачок у цьому і не можу сказати, що я маю повне розуміння теоретичних концепцій, що стоять за цим. Я намагаюся обчислити розбіжність KL між декількома списками точок у Python. Я використовую http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html, щоб спробувати це зробити. Проблема, з якою я стикаюся, полягає в тому, що повернене значення є …

2
Помилка train_test_split (): Знайдено вхідні змінні з невідповідною кількістю зразків
Досить нова у Python, але будую мою першу модель РФ на основі деяких класифікаційних даних. Я перетворив усі мітки в числові дані int64 і завантажив у X і Y як масивний ряд, але я відчуваю помилку, коли намагаюся тренувати моделі. Ось як виглядають мої масиви: >>> X = np.array([[df.tran_cityname, df.tran_signupos, …

3
StandardScaler до і після поділу даних
Коли я читав про використання StandardScaler, більшість рекомендацій говорили про те, що слід використовувати, StandardScaler перш ніж розділяти дані на поїзд / тест, але коли я перевіряв деякі коди, розміщені в Інтернеті (за допомогою sklearn), було два основних напрямки. 1- Використання StandardScalerвсіх даних. Напр from sklearn.preprocessing import StandardScaler sc = …

2
Як отримати p-значення та впевнений інтервал у LogisticRegression за допомогою sklearn?
Я будую багаточленну логістичну регресію зі sklearn (LogisticRegression). Але після її завершення, як я можу отримати p-значення та впевнений інтервал своєї моделі? Здається лише, що sklearn забезпечує лише коефіцієнт та перехоплення. Дуже дякую.

2
Чи можете ви пояснити різницю між SVC та LinearSVC у scikit-learn?
Нещодавно я почав вчитися працювати sklearnі щойно натрапив на цей своєрідний результат. Я використовував digitsнаявний набір даних, sklearnщоб спробувати різні моделі та методи оцінки. Коли я тестував модель підтримки Vector Vector на даних, я виявив, що існує два різних класи sklearnдля класифікації SVM: SVCі LinearSVC, коли перший використовує підхід один …
19 svm  scikit-learn 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.