Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

7
Як генерувати числа на основі довільного дискретного розподілу?
Як генерувати числа на основі довільного дискретного розподілу? Наприклад, у мене є набір чисел, які я хочу створити. Скажіть, вони позначені від 1-3 так. 1: 4%, 2: 50%, 3: 46% В основному відсотки - це ймовірність того, що вони з'являться у висновку з генератора випадкових чисел. У мене є генератор …

1
Як інтерпретувати дисперсію та співвідношення випадкових ефектів у моделі змішаних ефектів?
Я сподіваюся, що ви всі не заперечуєте проти цього питання, але мені потрібна допомога з інтерпретацією виводу для лінійної моделі змішаних ефектів, яку я намагався навчитися робити в Р. Я новачок у поздовжньому аналізі даних та регресії лінійних змішаних ефектів. У мене є модель, яку я підходив до тижня як …

3
Чому підсилюючи, чому учні "слабкі"?
Дивіться також подібне запитання на stats.SE . В активізації алгоритмів , таких як AdaBoost і LPBoost відомо , що «слабкі» учні повинні бути об'єднані тільки повинні працювати краще , ніж шанс бути корисним, з Вікіпедії: Класифікатори, які він використовує, можуть бути слабкими (тобто відображати істотну швидкість помилок), але поки їх …

5
Які небезпеки порушують припущення гомоскедастичності для лінійної регресії?
Як приклад, розглянемо ChickWeightнабір даних у Р. Дисперсія очевидно зростає з часом, тому якщо я використовую просту лінійну регресію, наприклад: m <- lm(weight ~ Time*Diet, data=ChickWeight) Мої запитання: Які аспекти моделі будуть сумнівними? Чи обмежуються проблеми екстраполяцією поза Timeдіапазоном? Наскільки толерантною є лінійна регресія до порушення цього припущення (тобто, якою …


3
Обчислення p-значення за допомогою завантажувальної програми з R
Я використовую пакет "boot" для обчислення приблизного двостороннього завантаженого p-значення, але результат занадто далекий від p-значення використання t.test. Я не можу зрозуміти, що я зробив не так у своєму R-коді. Може хтось, будь ласка, підкаже мені про це time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff …

4
Виміри подібності або відстані між двома матрицями коваріації
Чи є заходи подібності чи відстані між двома симетричними матрицями коваріації (обидві мають однакові розміри)? Я маю на увазі аналоги KL-розбіжності двох розподілів ймовірностей або евклідової відстані між векторами, за винятком матриць. Я думаю, було б досить багато вимірювань подібності. В ідеалі я також хотів би перевірити нульову гіпотезу про …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
Формула псевдо R для ГЛМ
Я знайшов формулу для псевдо у книзі Розширення лінійної моделі з R, Джуліан Дж. Фаравей (стор. 59).R2R2R^2 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} . Це загальна формула псевдо для GLM?R2R2R^2

6
Які цікаві та добре написані прикладні статистичні документи?
Які хороші документи описують додатки статистики, які було б цікаво та інформативно читати? Щоб було зрозуміло, я не дуже шукаю документи, що описують нові статистичні методи (наприклад, доповідь про найменший кут регресії), а радше статті, що описують, як вирішувати реальні проблеми. Наприклад, один документ, який би відповідав тому, що я …

1
Що стоїть за API прогнозування Google?
API Google Prediction - це хмарний сервіс, в якому користувач може надіслати деякі навчальні дані для тренувань таємничого класифікатора, а пізніше попросити його класифікувати вхідні дані, наприклад, застосувати фільтри спаму або передбачити налаштування користувачів. Але що за лаштунками?

6
Проблеми з круговими діаграмами
Здається, все частіше обговорюється кругова діаграма. Основними аргументами проти цього, здається, є: Площа сприймається з меншою потужністю, ніж довжина. Кругові діаграми мають дуже низьке співвідношення «точка-піксель» Однак я думаю, що вони можуть бути якось корисні при зображенні пропорцій. Я погоджуюся використовувати таблицю в більшості випадків, але коли ви пишете бізнес-звіт, …


4
Адаптація відстані Кульбека-Лейблера?
Подивіться на цю картинку: Якщо ми виведемо вибірку з червоної щільності, то очікується, що деякі значення будуть меншими ніж 0,25, тоді як неможливо сформувати такий зразок із синього розподілу. Як наслідок, відстань Кульбека - Лейблера від червоної щільності до синьої щільності - нескінченність. Однак обидві криві у певному "природному сенсі" …

3
Кого слідкувати за github, щоб дізнатися про кращі практики аналізу даних?
Корисно вивчити код аналізу даних експертів. Нещодавно я переглядаю github, і там є кількість людей, які діляться кодом аналізу даних. Сюди входить декілька пакетів R (які, звичайно, доступні безпосередньо у CRAN), а також кілька прикладів відтворюваних досліджень, зокрема з використанням R ( див. Цей список R на github ). Кого …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.