Запитання з тегом «scikit-learn»

scikit-learn - це бібліотека машинного навчання для Python, яка пропонує прості та ефективні інструменти для аналізу даних та обміну даними, з акцентом на машинне навчання. Він доступний для всіх і може бути повторно використаний у різних контекстах. Він побудований на NumPy та SciPy. Проект є відкритим кодом та комерційно доступний (ліцензія BSD).

20
Кодування міток через декілька стовпців у scikit-learn
Я намагаюся використовувати scikit-learn's LabelEncoderдля кодування панд DataFrameрядкових міток. Оскільки у фрейму даних є багато (50+) стовпців, я хочу уникати створення LabelEncoderоб'єкта для кожного стовпця; Я вважаю за краще мати один великий LabelEncoderоб'єкт, який працює в усіх моїх стовпцях даних. Закидання цілого DataFrameв LabelEncoderстворює помилку нижче. Будь ласка, майте на …

12
Як нормалізувати масив у NumPy?
Я хотів би мати норму одного масиву NumPy. Більш конкретно, я шукаю еквівалентну версію цієї функції def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm Чи є щось подібне в skearnабо numpy? Ця функція працює в ситуації, коли vвектор 0.

6
Збережіть класифікатор на диску в scikit-learn
Як я зберегти навчений наївний байесовский класифікатор на диск і використовувати його для передбачати дані? У мене є такий зразок програми з веб-сайту scikit-learn: from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % …

15
ImportError: Немає модуля з іменем sklearn.cross_validation
Я використовую python 2.7 в Ubuntu 14.04. Я встановив scikit-learn, numpy та matplotlib за допомогою цих команд: sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython Але коли я імпортую ці пакунки: from sklearn.cross_validation import train_test_split Це повертає мені цю помилку: ImportError: No module named …


10
Чи є в бібліотеці функція бібліотеки для середньоквадратичної помилки Rot (RMSE) в python?
Я знаю, що міг би реалізувати функцію помилки кореневого середнього квадрата на зразок цієї: def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) Що я шукаю, якщо ця функція rmse десь реалізована в бібліотеці, можливо, в scipy чи scikit-learn?

21
Як витягти правила рішення з дерева рішень scikit?
Чи можу я витягти основні правила прийняття рішень (або «шляхи прийняття рішень») з навченого дерева в дереві рішень як текстовий список? Щось на зразок: if A>0.4 then if B<0.2 then if C>0.8 then class='X' Спасибі за вашу допомогу.


10
RuntimeWarning: розмір numpy.dtype змінився, може вказувати на бінарну несумісність
У мене є ця помилка при спробі завантажити збережену модель SVM. Я спробував видалити sklearn, NumPy та SciPy, знову встановив останні версії разом (використовуючи pip). Я досі отримую цю помилку. Чому? In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import scipy; print …


5
Як розділити дані на 3 групи (поїзд, валідація та тест)?
У мене є фрейм даних панд, і я хочу поділити його на 3 окремих набори. Я знаю, що, використовуючи train_test_split від sklearn.cross_validation, можна розділити дані на два набори (поїзд та тест). Однак я не зміг знайти жодного рішення щодо розділення даних на три набори. Переважно, я хотів би мати індекси …

6
масштабування стовпців фреймів даних панди за допомогою sklearn
У мене є фрейм даних pandas зі стовпцями змішаного типу, і я хотів би застосувати min_max_scaler sklearn до деяких стовпців. В ідеалі я хотів би зробити ці перетворення на місці, але ще не знайшов способу зробити це. Я написав такий код, який працює: import pandas as pd import numpy as …

3
Чому одне гаряче кодування покращує продуктивність машинного навчання?
Я помітив, що коли кодування One Hot використовується на певному наборі даних (матриці) і використовується як навчальні дані для алгоритмів навчання, воно дає значно кращі результати щодо точності прогнозування, порівняно з використанням оригінальної самої матриці як навчальних даних. Як відбувається таке підвищення продуктивності?

13
помилка sklearn ValueError: Вхід містить NaN, нескінченність або занадто велике значення для dtype ('float64')
Я використовую sklearn і маю проблеми з поширенням афінності. Я створив матрицю введення, і я продовжую отримувати наступну помилку. ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). Я бігав np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True Я спробував використовувати mat[np.isfinite(mat) == True] = 0 щоб …

6
Як визначаються особливості_визначення в RandomForestClassifier?
У мене є завдання класифікації із тимчасовим рядом як введення даних, де кожен атрибут (n = 23) являє собою певний момент часу. Окрім абсолютного результату класифікації, я хотів би з’ясувати, які ознаки / дати сприяють результату в якій мірі. Тому я просто використовую те feature_importances_, що добре працює для мене. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.