Запитання з тегом «scikit-learn»

scikit-learn - це бібліотека машинного навчання для Python, яка пропонує прості та ефективні інструменти для аналізу даних та обміну даними, з акцентом на машинне навчання. Він доступний для всіх і може бути повторно використаний у різних контекстах. Він побудований на NumPy та SciPy. Проект є відкритим кодом та комерційно доступний (ліцензія BSD).

7
Стратифікований поїзд / тест-спліт у науковому дослідженні
Мені потрібно розділити свої дані на навчальний набір (75%) та набір тестів (25%). На даний момент я роблю це за допомогою коду нижче: X, Xt, userInfo, userInfo_train = sklearn.cross_validation.train_test_split(X, userInfo) Однак я хотів би розшарувати свій навчальний набір даних. Як це зробити? Я досліджував StratifiedKFoldметод, але не дозволяв мені конкретизувати …

3
Які різні випадки використання йоблібу проти соління?
Довідкова інформація: Я лише починаю роботу з scikit-learn і читаю внизу сторінки про joblib проти соління . може бути цікавіше використовувати заміну розсоління joblib (joblib.dump & joblib.load), яка є більш ефективною для великих даних, але може розсолити лише диск, а не рядок Я читаю ці запитання щодо Pickle, типових випадків …

7
матриця змішання ділянок sklearn із мітками
Я хочу побудувати матрицю плутанини для візуалізації роботи класифікатора, але вона відображає лише номери етикеток, а не самі мітки: from sklearn.metrics import confusion_matrix import pylab as pl y_test=['business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business', 'business'] pred=array(['health', 'business', 'business', …

3
Sklearn, gridsearch: як роздрукувати хід під час виконання?
Я використовую GridSearchвід sklearnдля оптимізації параметрів класифікатора. Даних багато, тому весь процес оптимізації займає деякий час: більше доби. Я хотів би спостерігати за виконанням вже випробуваних комбінацій параметрів під час виконання. Це можливо?

5
Використовуйте scikit-learn для класифікації за кількома категоріями
Я намагаюся використовувати один із контрольованих методів навчання scikit-learn для класифікації фрагментів тексту в одну або кілька категорій. Функція передбачення всіх алгоритмів, які я пробував, повертає лише одне збіг. Наприклад, у мене є шматок тексту: "Theaters in New York compared to those in London" І я навчив алгоритм вибирати місце …

5
Як використовувати sklearn fit_transform з пандами і повернути фрейм даних замість масиву numpy?
Я хочу застосувати масштабування (за допомогою StandardScaler () від sklearn.preprocessing) до фрейму даних pandas. Наступний код повертає масив numpy, тому я втрачаю всі імена стовпців та індекси. Це не те, що я хочу. features = df[["col1", "col2", "col3", "col4"]] autoscaler = StandardScaler() features = autoscaler.fit_transform(features) "Рішення", яке я знайшов в …

5
Відновлення імен функцій объясненного_вариантного_соотношения_ в PCA за допомогою sklearn
Я намагаюся оговтатися від PCA, виконаного за допомогою scikit-learn, які функції вибрані як відповідні . Класичний приклад із набором даних IRIS. import pandas as pd import pylab as pl from sklearn import datasets from sklearn.decomposition import PCA # load dataset iris = datasets.load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) # normalize data …

6
UndefinedMetricWarning: F-score не визначений і встановлюється на 0,0 у мітках без прогнозованих зразків
Я отримую цю дивну помилку: classification.py:1113: UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples. 'precision', 'predicted', average, warn_for)` але потім він також друкує f-рахунок при першому запуску: metrics.f1_score(y_test, y_pred, average='weighted') Другий раз, коли я біжу, він дає рахунок без помилок. Чому так? >>> …

5
Передача категоріальних даних до Дерева рішень Sklearn
Є кілька публікацій про те, як кодувати категоричні дані в дерева рішень Sklearn, але з документації Sklearn ми отримали Деякі переваги дерев рішень: (...) Здатний обробляти як числові, так і категоріальні дані. Інші методи, як правило, спеціалізуються на аналізі наборів даних, які мають лише один тип змінних. Докладніше див. У …

13
fit_transform () приймає 2 позиційні аргументи, але 3 були задані за допомогою LabelBinarizer
Я абсолютно новачок у машинному навчанні, і я працюю з технікою навчання без нагляду. Зображення показує мої зразки даних (після очищення) Знімок екрана: Зразки даних У мене є два Pipline, побудовані для очищення даних: num_attribs = list(housing_num) cat_attribs = ["ocean_proximity"] print(type(num_attribs)) num_pipeline = Pipeline([ ('selector', DataFrameSelector(num_attribs)), ('imputer', Imputer(strategy="median")), ('attribs_adder', CombinedAttributesAdder()), …

5
Розуміння min_df та max_df у scikit CountVectorizer
У мене є п’ять текстових файлів, які я ввожу в CountVectorizer. При зазначенні min_df та max_df для екземпляра CountVectorizer, що саме означає мінімальна / максимальна частота документа? Це частота слова у конкретному текстовому файлі чи частота слова у всьому загальному корпусі (5 текстових файлів)? Чим відрізняється, коли min_df та max_df …

5
scikit-learn .predict () поріг за замовчуванням
Я працюю над проблемою класифікації з незбалансованими класами (5% 1). Я хочу передбачити клас, а не ймовірність. У бінарної задачі класифікації є scikit - х , classifier.predict()використовуючи 0.5за замовчуванням? Якщо ні, який метод за замовчуванням? Якщо це так, як я можу це змінити? У scikit деякі класифікатори мають class_weight='auto'можливість, але …

3
Перетворіть кілька категоричних стовпців
У своєму наборі даних я маю дві категоричні стовпці, які я хотів би прорахувати. Обидва ці стовпці містять країни, деякі перекриваються (відображаються в обох стовпцях). Я хотів би вказати однакову кількість у колонці1 та колонці2 для тієї ж країни. Мої дані виглядають приблизно так: import pandas as pd d = …

2
Використання GridSearchCV з IsolationForest для пошуку вихідних людей
Я хочу використовувати IsolationForestдля пошуку людей, що вижили. Я хочу знайти найкращі параметри для моделі GridSearchCV. Проблема в тому, що я завжди отримую однакову помилку: TypeError: If no scoring is specified, the estimator passed should have a 'score' method. The estimator IsolationForest(behaviour='old', bootstrap=False, contamination='legacy', max_features=1.0, max_samples='auto', n_estimators=100, n_jobs=None, random_state=None, verbose=0, …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.