Статистика та великі дані aggregation

4

Які правильні значення для точності та відкликання у кращих випадках?

Точність визначається як: p = true positives / (true positives + false positives) Чи правильно, що як true positivesі false positivesпідхід 0, точність наближається до 1? Те саме запитання для відкликання: r = true positives / (true positives + false negatives) Зараз я впроваджую статистичний тест, де мені потрібно обчислити …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

3

Як узагальнити дані за хвилину за тиждень у погодинний засіб?

Як би ви отримали погодинний засіб для декількох стовпців даних за щоденний період та показували результати для дванадцяти "хостів" в одному графіку? Тобто, я хотів би накреслити, як виглядає 24-годинний період, на тижні даних. Можливою метою буде порівняння двох наборів цих даних до та після вибірки. dates Host CPUIOWait CPUUser …

15 r time-series aggregation

6

Швидкі способи R отримати перший ряд кадру даних, згрупований за ідентифікатором [закритий]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Іноді мені потрібно отримати лише перший рядок набору даних, згрупований за ідентифікатором, як при пошуку віку та статі, коли на кожного людини …

14 r dataset aggregation plyr

1

ЛАРС проти координатного спуску для ласо

Які плюси та мінуси використання LARS [1] проти використання координатного спуску для встановлення L1-регульованої лінійної регресії? Мене в основному цікавлять аспекти ефективності (мої проблеми мають, як правило, Nсотні тисяч і p<20). Однак, будь-які інші дані також будуть оцінені. редагувати: Оскільки я розмістив запитання, chl люб'язно вказав на статтю [2] Friedman …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Квантили від комбінації нормальних розподілів

У мене є інформація про розподіл антропометричних розмірів (як плечовий проміжок) для дітей різного віку. Для кожного віку та розміру я маю середнє стандартне відхилення. (У мене також є вісім квантилів, але я не думаю, що я зможу отримати від них те, що хочу.) Для кожного виміру я хотів би …

13 normal-distribution quantiles gaussian-mixture aggregation

1

Як ви обираєте одиницю аналізу (рівень агрегації) у часових рядах?

Якщо ви можете виміряти часовий ряд спостережень на будь-якому рівні точності в часі, і ваша мета дослідження - виявити взаємозв'язок між X і Y, чи є емпіричне обґрунтування вибору конкретного рівня агрегації над іншим, чи слід вибір слід приймати просто на основі теорії та / або практичних обмежень? Я маю …

13 time-series aggregation disaggregation

2

Яка статистика зберігається при агрегації?

Якщо у нас довгий часовий ряд із високою роздільною здатністю, з великим рівнем шуму, часто має сенс агрегувати дані до нижчої роздільної здатності (скажімо, щоденних до місячних значень), щоб краще зрозуміти, що відбувається, ефективно видаляючи деякі шум. Я бачив принаймні один документ, який потім застосовує деякі статистичні дані до агрегованих …

12 time-series aggregation

2

Чи слід проводити окремі регресії для кожної спільноти, чи спільнота може бути просто керуючою змінною в агрегованій моделі?

Я використовую модель OLS з постійною змінною індексу активів як DV. Мої дані агрегуються з трьох подібних спільнот у тісній географічній близькості. Незважаючи на це, я вважав важливим використовувати спільноту як контрольну змінну. Як виявляється, спільнота є значною на рівні 1% (t-бал -4,52). Спільнота - це номінальна / категоріальна змінна, …

11 regression categorical-data stata multiple-regression aggregation

6

Як знайти підсумкову статистику для всіх унікальних комбінацій факторів у data.frame в R? [зачинено]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я хочу обчислити підсумок змінної у data.frame для кожної унікальної комбінації факторів у data.frame. Чи варто використовувати для цього plyr? Я все …

11 r categorical-data aggregation plyr

1

Випадкові лісові ймовірнісні прогнози проти більшості голосів

Здається, Scikit використовує ймовірнісне прогнозування замість більшості голосів для методики моделювання агрегації без пояснення того, чому (1.9.2.1. Випадкові ліси). Чи є чітке пояснення чому? Далі є хороша стаття чи огляд статей для різних методів агрегації моделей, які можна використовувати для випадкового розпалювання лісу? Дякую!

10 random-forest python scikit-learn aggregation bagging

2

Обчисліть криву ROC для даних

Отже, у мене є 16 випробувань, в яких я намагаюся ідентифікувати людину з біометричної ознаки за допомогою дистанції Hamming. Мій поріг встановлено на 3,5. Мої дані нижче, і лише пробна версія 1 - справжнє Позитивне: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Запитання з тегом «aggregation»