Статистика та великі дані project-management

7

Як ефективно керувати проектом статистичного аналізу?

Ми часто чуємо про управління проектами та схеми дизайну в інформатиці, але рідше - про статистичний аналіз. Однак, здається, що вирішальним кроком до розробки ефективного та довговічного статистичного проекту є організація речей. Я часто виступаю за використання R та послідовної організації файлів в окремих папках (необроблений файл даних, перетворений файл …

89 project-management

3

Чому існує різниця між ручним обчисленням логістичної регресії 95% довірчого інтервалу та використанням функції conint () в R?

Дорогі всі - я помітив щось дивне, чого я не можу пояснити, чи не так? Підсумовуючи: ручний підхід до обчислення довірчого інтервалу в моделі логістичної регресії та функції R confint()дають різні результати. Я пережив прикладну логістичну регресію Hosmer & Lemeshow (2-е видання). У 3-й главі є приклад обчислення коефіцієнта шансів …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

7

Чому кома поганий роздільник запису / роздільник обмежень у файлах CSV?

Я читав цю статтю і мені цікаво правильна відповідь на це питання. Єдине, що мені спадає на думку, це, мабуть, що в деяких країнах десятковий роздільник є комою, і це можуть бути проблеми при обміні даними в CSV , але я не дуже впевнений у своїй відповіді.

32 project-management

6

Як збільшити довгострокову відтворюваність досліджень (особливо з використанням R та Sweave)

Контекст: У відповідь на попереднє запитання про відтворювані дослідження Джейк писав Однією з проблем, які ми виявили під час створення нашого архіву JASA, було те, що змінилися версії та типові параметри CRAN-пакетів. Отже, в цей архів ми також включаємо версії пакетів, які ми використовували. Система, що базується на віньєтці, ймовірно, …

31 r reproducible-research project-management

1

Обчислювальна повторюваність ефектів від lmer-моделі

Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

4

Які ефективні способи впорядкувати R-код і вихід? [зачинено]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для Cross Valified. Закритий минулого року . Я шукаю інформацію про те, як інші організовують свій R-код та вихід. Моя нинішня практика - писати код у блоках у текстовий файл …

23 r project-management

5

Як перевірити дослідницький аналіз великих наборів даних?

Коли я починаю дослідницький аналіз великого набору даних (багато зразків, багато змінних), я часто опиняюся з сотнями похідних змінних і тоннами різних ділянок, і немає реального способу відстежувати, що відбувається куди. Код закінчується як спагетті, тому що немає напряму з самого початку ... Чи є які-небудь рекомендовані методи для того, …

22 eda project-management

10

Стратегія редагування файлів значень, розділених комами (CSV)

Коли я працюю над проектами з аналізу даних, я часто зберігаю дані у файлах даних, розміщених комами або вкладками (CSV, TSV). Хоча дані часто належать до спеціалізованої системи управління базами даних. Для багатьох моїх заявок це було б надмірним речей. Я можу редагувати файли CSV та TSV в Excel (або, …

18 project-management

5

Простий, надійний, відкритий та сумісний формат простого тексту для зберігання даних

У попередньому запитанні я запитав про інструменти для редагування файлів CSV . Гевін посилається на коментар до R Help від Duncan Murdoch, припускаючи, що формат обміну даними - більш надійний спосіб зберігання даних, ніж CSV. Для деяких додатків потрібна спеціальна система управління базами даних. Однак для невеликих масштабів аналізу даних …

17 project-management

3

Що таке практично хороший процес аналізу даних?

Мені хотілося б знати чи мати посилання на процес аналізу, який проходить більшість аналітиків статистичних даних для кожного проекту аналізу даних. Якщо я складаю "список", для завершення проекту аналізу даних аналітик повинен: спочатку збирайте вимоги до проекту, планувати / проектувати його аналіз даних на основі цих вимог раніше фактично попередньо …

15 project-management

3

Поліпшення імен змінних у наборі даних

Хорошими назвами змінних є: а) коротка / проста введення, б) легко запам'ятовується, в) зрозуміла / комунікативна. Я щось забуваю? Послідовність - це щось шукати. Я б сказав, що послідовні конвенції про іменування сприяють вищезгаданим якостям. Послідовність сприяє (б) простоті пригадування та (в) зрозумілості, хоча інші фактори часто важливіші. Існує чіткий …

11 project-management

Запитання з тегом «project-management»