Запитання з тегом «scikit-learn»

Машинна бібліотека для Python. Використовуйте цей тег для будь-якого тематичного питання, яке (a) передбачає scikit-learning або як критичну частину запитання, або очікувану відповідь; & (b) не стосується лише того, як використовувати scikit-learn.

3
XGBoost проти Python Sklearn сприяв збільшенню дерев
Я намагаюся зрозуміти, як працює XGBoost. Я вже розумію, як підсилені градієнти дерева працюють на склеарні Python. Що мені незрозуміло, це якщо XGBoost працює однаково, але швидше або якщо існують принципові відмінності між ним та реалізацією python. Коли я прочитав цей документ http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Мені здається, що кінцевий результат, що виходить …

2
Багатозначні класифікаційні показники на scikit
Я намагаюся створити класифікатор, що містить багато міток, щоб призначити теми існуючим документам за допомогою scikit Я обробляю свої документи, передаючи їх по TfidfVectorizerмітках через MultiLabelBinarizerі OneVsRestClassifierстворюючи SGDClassifierа з оцінкою. Однак під час тестування свого класифікатора я отримую лише бали до .29, що з того, що я прочитав, є досить …

2
Випадковий ліс є надмірним?
Я експериментую з випадковими лісами з scikit-learn, і я отримую чудові результати свого навчального набору, але порівняно погані результати на моєму тестовому наборі ... Ось проблема (натхненна покером), яку я намагаюся вирішити: Враховуючи дірові карти гравця A, картки гравців B з дірками та флоп (3 карти), який гравець має найкращу …

3
Як обчислити стандартні похибки коефіцієнтів логістичної регресії
Я використовую науку Python для навчання та перевірки логістичної регресії. scikit-learn повертає коефіцієнти регресії незалежних змінних, але це не забезпечує стандартних помилок коефіцієнтів. Мені потрібні ці стандартні помилки для обчислення статистики Wald для кожного коефіцієнта і, в свою чергу, порівняння цих коефіцієнтів один з одним. Я знайшов один опис, як …

3
Як систематично видаляти колінеарні змінні в Python? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Поки що я видалив колінеарні змінні як частину процесу підготовки даних, переглянувши таблиці кореляції та усунувши змінні, що перевищують певний поріг. Чи …

3
Чому б не використати «звичайні рівняння», щоб знайти прості найменші коефіцієнти квадратів?
Я побачив цей список тут і не міг повірити, що існує стільки способів вирішити найменші квадрати. «Нормальні рівняння» на Вікіпедії , здавалося, досить прямим α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} То чому б просто не використовувати їх? Я припускав, …

3
Як отримати гіперпараметри при вкладеній перехресній валідації?
Я прочитав наступні публікації щодо вкладеної перехресної перевірки, і все ще не на 100% впевнений, що мені робити з вибором моделі з вкладеною перехресною перевіркою: Вкладена перехресна перевірка для вибору моделі Вибір моделі та перехресне підтвердження: правильний шлях Щоб пояснити свою плутанину, дозвольте мені спробувати пройти вибір моделі з вкладеним …

3
Колінеарні змінні в навчанні багатошарового LDA
Я готую багатокласний класифікатор LDA з 8 класами даних. Під час виконання тренінгу я отримую попередження: " Змінні колінеарні " Я отримую точність тренувань понад 90% . Я використовую бібліотеку scikits-learn у Python, щоб тренувати та перевіряти дані класу Multi-Class. Я також отримую гідну точність тестування (близько 85% -95% ). …

6
Найшвидша реалізація SVM
Більше загального питання. Я запускаю rbf SVM для прогнозного моделювання. Я думаю, що моїй програмі, безумовно, потрібно трохи прискорити. Я використовую scikit learn з грубим точним пошуком сітки + перехресне підтвердження. Кожен пробіг SVM займає близько хвилини, але з усіма ітераціями я все ще знаходжу це занадто повільно. Припустимо, що …

2
Правильний шлях Scikit для калібрування класифікаторів за допомогою CalibratedClassifierCV
У Scikit є CalibratedClassifierCV , що дозволяє нам калібрувати наші моделі на певній парі X, y. Він також чітко стверджує, щоdata for fitting the classifier and for calibrating it must be disjoint. Якщо вони повинні бути непересічними, чи законно навчати класифікатора наступним чином? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Я побоююся, …

3
Різниця між статистикою OLS статистики та лінійною регресією scikit
У мене є питання про два різні методи з різних бібліотек, які, здається, виконують ту саму роботу. Я намагаюся зробити лінійну регресійну модель. Ось код, за допомогою якого я використовую бібліотеку statsmodel з OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) …

7
Випадковий ліс витончений
Я намагаюся використовувати випадкову регресію лісу в науках-учах. Проблема в тому, що я отримую дійсно високу помилку тесту: train MSE, 4.64, test MSE: 252.25. Ось так виглядають мої дані: (синій: реальні дані, зелений: передбачуваний): Я використовую 90% для тренувань і 10% для тесту. Це код, який я використовую після спробу …

3
Логістична регресія: Scikit Learn vs glmnet
Я намагаюся дублювати результати з sklearnлогістичної регресійної бібліотеки за допомогою glmnetпакету в Р. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) З віньєток з glmnetйого реалізація мінімізує дещо інший вартість функції хвβ, β0- [ 1N∑i=1Nyi(β0+xTiβ) -log( 1 + е( β0+ хТiβ)) ] + λ [ ( α - 1 ) …

3
Методи вирішення проблеми відсутності даних у машинному навчанні
Практично будь-яка база даних, яку ми хочемо передбачити, використовуючи алгоритми машинного навчання, знайде відсутні значення для деяких характеристик. Існує кілька підходів для вирішення цієї проблеми, щоб виключити рядки, у яких відсутні значення, поки вони не заповняться середніми значеннями характеристик. Я хотів би скористатися дещо більш надійним підходом, який би в …

2
Різниця між вибором функцій на основі "F регресії" та на основі значень
Чи порівнюють функції, використовуючи F-regressionте саме, що співвідносити функції з міткою окремо і дотримуватися значення ?R2R2R^2 Я часто бачив, як мої колеги використовують F regressionдля вибору функцій у своєму трубопроводі машинного навчання sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Деякі, будь ласка, скажіть мені - чому це дає ті ж результати, що і лише співвідносивши …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.