Запитання з тегом «scikit-learn»

Машинна бібліотека для Python. Використовуйте цей тег для будь-якого тематичного питання, яке (a) передбачає scikit-learning або як критичну частину запитання, або очікувану відповідь; & (b) не стосується лише того, як використовувати scikit-learn.

2
Чому функція bootstrap scikit-learn переутворює тестовий набір?
Під час використання завантажувальної програми для оцінки моделі, я завжди вважав, що зразки з мішків безпосередньо використовуються як тестовий набір. Однак, як видається, це не стосується застарілого підходу наукової роботиBootstrap , який, здається, будує тестовий набір із малювання із заміною із підмножини даних із пакета. Які статистичні міркування стоять за …

2
Використання вкладеної перехресної перевірки
На сторінці Scikit Learn щодо вибору моделі згадується використання вкладеної перехресної перевірки: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Дві петлі перехресної перевірки виконуються паралельно: один за допомогою оцінювача GridSearchCV для встановлення гамми, а другий через cross_val_score для вимірювання показників прогнозування оцінювача. Отримані результати є неупередженими …

2
Чи є поріг рішення гіперпараметром при логістичній регресії?
Прогнозовані класи від (бінарної) логістичної регресії визначаються за допомогою порогу щодо ймовірностей членства в класі, породжених моделлю. Як я розумію, типово 0,5 використовується за замовчуванням. Але зміна порогу змінить передбачувані класифікації. Чи означає це поріг - гіперпараметр? Якщо так, то чому (наприклад) неможливо легко здійснити пошук по сітці порогів за …

2
Використання BIC для оцінки кількості k у KMEANS
В даний час я намагаюся обчислити BIC для мого набору даних про іграшки (ofc iris (:). Я хочу відтворити результати, як показано тут (рис. 5). Цей документ також є моїм джерелом для формул BIC). У мене є 2 проблеми з цим: Позначення: ninin_i = кількість елементів кластераiii CiCiC_i = центральні …

1
Як виправити неконвергенцію в LogisticRegressionCV
Я використовую scikit-learn для виконання логістичної регресії з перехресною валідністю на наборі даних (близько 14 параметрів з> 7000 нормалізованими спостереженнями). У мене також є цільовий класифікатор, який має значення або 1, або 0. Проблема в тому, що незалежно від використовуваного рішення, я продовжую отримувати попередження про конвергенцію ... model1 = …

2
Можна оцінити GLM в Python / scikit-learn, використовуючи розподіли Poisson, Gamma або Tweedie як сімейство для розподілу помилок?
Намагаюся вивчити деякі Python та Sklearn, але для своєї роботи мені потрібно запустити регресії, які використовують розподіл помилок із сімей Пуассона, Гамми та особливо Tweedie. Я нічого не бачу в документації про них, але вони знаходяться в декількох частинах розподілу R, тому мені було цікаво, чи хтось бачив реалізацію для …

5
Як виконати імпутацію значень у дуже великій кількості точок даних?
У мене дуже великий набір даних, і близько 5% випадкових значень відсутні. Ці змінні співвідносяться між собою. Наступний приклад набору даних R - це лише іграшковий приклад з манекено-корельованими даними. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Різниця між впровадженнями наукових програм PCA і TruncatedSVD
Я розумію взаємозв'язок між основним компонентним аналізом та сингулярним декомпозицією значення на алгебраїчному / точному рівні. Моє запитання щодо реалізації scikit-learn . Документація говорить: " [усіченийSVD] дуже схожий на PCA, але працює на вибіркових векторах безпосередньо, а не на коваріаційній матриці. ", Що відображало б алгебраїчну різницю між обома підходами. …
12 pca  scikit-learn  svd  scipy 

1
Інтерпретація вихідного прогнозу Scikit
Я працюю з бібліотекою scikit-learn в python. У наведеному нижче коді я прогнозую ймовірність, але не знаю, як прочитати вихід. Тестування даних from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Розділіть набір даних X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y, test_size=0.5, random_state=0) …

2
Чим відрізняється
Я читав про регресійні метрики в посібнику з python scikit-learn, і хоча кожен з них має власну формулу, я не можу інтуїтивно сказати, у чому різниця між R2R2R^2 та шкалою дисперсії, а отже, коли використовувати те чи інше для оцінки мого моделей.

1
Метод Найстрома для апроксимації ядра
Я читав про метод Nyström для апроксимації ядра низького рангу. Цей метод реалізований у scikit-learn [1] як метод проектування зразків даних до наближення низького рангу відображення функції ядра. Наскільки мені відомо, зважаючи на навчальний набір та функцію ядра, він генерує апроксимацію низького рангу матриці ядра ядра , застосовуючи SVD до …

1
Чому великий вибір K знижує показник перехресної перевірки?
Граючи з набором даних Boston Housing Dataset та RandomForestRegressor(з параметрами за замовчуванням) у scikit-learn, я помітив щось дивне: середній бал перехресної перевірки зменшився, оскільки я збільшив кількість складок понад 10. Моя стратегія крос-валідації була така: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) scores = cross_val_score(est, X, y, cv=cv_met) ... де num_cvsбуло різноманітно. Я …

1
Різниця між ElasticNet у науковому навчальному Python та Glmnet в R
Хто-небудь намагався перевірити, чи встановлення моделі Elastic Net з ElasticNetнауками на Python та glmnetR в одному наборі даних дає однакові арифметичні результати? Я експериментував з багатьма комбінаціями параметрів (оскільки дві функції відрізняються за значеннями за замовчуванням, які вони передають аргументам), а також масштабування даних, але ніби нічого не створює однакову …

2
У чому полягають відмінності між регресією Рейджа за допомогою Rm glmnet та Python's scikit-learn?
Я переглядаю розділ LAB §6.6, присвячений хребтовій регресії / Лассо, в книзі «Вступ до статистичного навчання з додатками в R» Джеймса, Віттена, Хасті, Тібширані (2013). Більш конкретно, я намагаюся застосувати модель scikit-learn Ridgeдо набору даних "Hitters" з пакету R "ISLR". Я створив той самий набір функцій, що і в коді …

1
Для якого вибору ознак можна використати тест Chi?
Тут я запитую про те, що зазвичай роблять інші, щоб використовувати тест-квадрат чи для вибору функцій wrt для вибору функцій при контрольованому навчанні. Якщо я правильно розумію, чи перевіряють вони незалежність між кожною ознакою та результатом і чи порівнюють значення p між тестами для кожної функції? У http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , Хір-квадратний …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.