Статистика та великі дані python

1

При множинній лінійній регресії чому графік прогнозованих точок не лежить у прямій?

Я використовую численні лінійні регресії для опису зв’язків між Y і X1, X2. З теорії я зрозумів, що множинна регресія передбачає лінійні зв’язки між Y і кожним з X (Y і X1, Y і X2). Я не використовую жодної трансформації X. Отже, я отримав модель з R = 0,45 і …

16 regression multiple-regression python linear

3

Колінеарні змінні в навчанні багатошарового LDA

Я готую багатокласний класифікатор LDA з 8 класами даних. Під час виконання тренінгу я отримую попередження: " Змінні колінеарні " Я отримую точність тренувань понад 90% . Я використовую бібліотеку scikits-learn у Python, щоб тренувати та перевіряти дані класу Multi-Class. Я також отримую гідну точність тестування (близько 85% -95% ). …

16 machine-learning classification python scikit-learn discriminant-analysis

1

Який багаторазовий метод порівняння використовувати для lmer-моделі: lsmeans або glht?

Я аналізую набір даних, використовуючи модель змішаних ефектів з одним фіксованим ефектом (умовою) та двома випадковими ефектами (учасник, обумовлений в рамках проекту та пари). Модель була згенерована з lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Далі я провів перевірку коефіцієнта ймовірності цієї моделі проти моделі без фіксованого ефекту (умови) і маю суттєву різницю. У моєму …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

Різниця між статистикою OLS статистики та лінійною регресією scikit

У мене є питання про два різні методи з різних бібліотек, які, здається, виконують ту саму роботу. Я намагаюся зробити лінійну регресійну модель. Ось код, за допомогою якого я використовую бібліотеку statsmodel з OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) model = sm.OLS(y_train, x_train) …

16 regression python scikit-learn statsmodels

2

Показати середній замість медіани у boxplot [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 5 місяців тому . При побудові графіки коробки з пітон-матплотлібом рядки на півдорозі ділянки є медіаною розподілу. Чи є можливість замість цього рядка в середньому. Або …

15 data-visualization python matplotlib boxplot

3

Логістична регресія: Scikit Learn vs glmnet

Я намагаюся дублювати результати з sklearnлогістичної регресійної бібліотеки за допомогою glmnetпакету в Р. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) З віньєток з glmnetйого реалізація мінімізує дещо інший вартість функції хвβ, β0- [ 1N∑i=1Nyi(β0+xTiβ) -log( 1 + е( β0+ хТiβ)) ] + λ [ ( α - 1 ) …

15 r logistic python scikit-learn glmnet

1

Як інтерпретувати матрицю коваріації з кривої?

Я не надто великий у статистиці, тому вибачте, якщо це спрощене питання. Я підгонка кривого деяких даних, і іноді мої дані найкраще підходить негативний експоненту у вигляді * е ( - Ь * х ) + з , а іноді підходить ближче до з * е ( - Ь * …

15 variance model-selection python curve-fitting covariance-matrix

3

Як побудувати графік виведення даних кластеризації?

Я спробував згрупувати набір даних (набір знаків) і отримав 2 кластери. Я хотів би це графічно представити. Трохи розгублений у поданні, оскільки у мене немає координат (x, y). Також шукає функцію MATLAB / Python для цього. EDIT Я думаю, що розміщення даних робить питання зрозумілішим. У мене є два кластери, …

15 clustering data-visualization python

3

Перевірте, чи багатовимірні розподіли однакові

Скажімо, у мене є дві або більше вибіркових сукупностей n-мірних векторів безперервного значення. Чи є непараметричний спосіб перевірити, чи є ці зразки з одного розподілу? Якщо так, чи є для цього функція в R або python?

15 r distributions nonparametric python

2

Різниця між вибором функцій на основі "F регресії" та на основі значень

Чи порівнюють функції, використовуючи F-regressionте саме, що співвідносити функції з міткою окремо і дотримуватися значення ?R2R2R^2 Я часто бачив, як мої колеги використовують F regressionдля вибору функцій у своєму трубопроводі машинного навчання sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Деякі, будь ласка, скажіть мені - чому це дає ті ж результати, що і лише співвідносивши …

15 feature-selection python scikit-learn r-squared f-test

2

Вибірка з розподілу фон Мізеса-Фішера в Python?

Я шукаю простий спосіб вибірки з багатовимірного розподілу фон Мізеса-Фішера в Python. Я переглянув модуль статистики в scipy та модуль numpy, але лише знайшов однозначний розподіл фон Мізеса. Чи доступний код? Я ще не знайшов. Мабуть, Вуд (1994) розробив алгоритм вибірки з розподілу vMF за цим посиланням , але я …

14 distributions sampling python

1

Бета-версія розподілу в Scipy

Згідно з Вікіпедією, бета-розподіл ймовірностей має два параметри форми: і β .αα\alphaββ\beta Коли я дзвоню scipy.stats.beta.fit(x)в Python, де xзнаходиться купа чисел у діапазоні , повертаються 4 значення. Це вражає мене дивним.[0,1][0,1][0,1] Після googling я знайшов, що одне з повернених значень має бути "location", оскільки третя змінна - 0, якщо я …

14 python scipy beta-distribution

1

Аналіз чутливості в глибоких нейронних мережах

Після відповіді на питання ( витягування вагової важливості з одношарової мережі передачі вперед ) я шукаю висновок про релевантність входів у нейронні мережі. Враховуючи глибоку сітку, де реконструкція важливості входу шляхом просування назад через шари від вивідного вузла, що цікавить, може бути важким або забираючи багато часу, мені було цікаво, …

14 neural-networks python feature-selection sensitivity-analysis

1

Використання iloc для встановлення значень [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Цей рядок повертає перші 4 рядки в кадрі даних combinedдляfeature_a combined.iloc[0:4]["feature_a"] Як очікувалося, наступний рядок повертає 2-й, 4-й та 16-й рядки в …

13 python pandas

2

Коли увійти / випробувати свої змінні під час використання випадкових лісових моделей?

Я роблю регресію, використовуючи випадкові ліси для прогнозування цін на основі декількох ознак. Код пишеться на Python за допомогою Scikit-learn. Як ви вирішите, чи слід трансформувати свої змінні, використовуючи exp/ logперед тим, як використовувати їх, щоб відповідати регресійній моделі? Чи потрібно це використовувати підхід Ансамблю, такий як випадковий ліс?

13 regression machine-learning predictive-models python random-forest

Запитання з тегом «python»