Статистика та великі дані r

3

R пакет для комбінування рівнів факторів для обміну даними?

Цікаво, чи хтось перебігав пакет / функцію в R, який буде поєднувати рівні фактора, частка яких у всіх коефіцієнтах менша за деякий поріг? Зокрема, одним із перших етапів підготовки даних, який я веду, є згуртування рідких рівнів факторів разом (скажімо, на рівень, який називається "Інше"), які не складають принаймні 2% …

10 r many-categories

1

У R, чи відповідає "glmnet" перехоплення?

Мені підходить лінійна модель в R, використовуючи glmnet. Оригінальна (нерегульована) модель була пристосована з використанням lmі не мала постійного терміну (тобто вона була у формі lm(y~0+x1+x2,data)). glmnetприймає матрицю предикторів та вектор відповідей. Я читав glmnetдокументацію і не можу знайти згадки про постійний термін. Отже, чи є спосіб попросити glmnetпримусити лінійне …

10 r regression lasso

1

Перекласти R на C ++ (зрештою, за допомогою Rcpp) [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я хотів би навчитися використовувати Rcpp . Я переглянув документи на веб-сайті CRAN пакету, але мені здається, що робота над практичним прикладом …

10 r c++

2

Коли використовувати (не) параметричний тест припущення про гомоседастичність?

Якщо випробовуєте припущення про гомоскедастичність, параметричні (тест Бартлетта на однорідність варіантів bartlett.test) та непараметричні (тест Фігнера-Кіллена на однорідність варіантів fligner.test) доступні. Як сказати, який вид використовувати? Чи повинно це залежати, наприклад, від нормальності даних?

10 r variance heteroscedasticity misspecification

4

Як шукати долини в графі?

Я вивчаю деякі дані геномного покриття, які в основному є довгим списком (кілька мільйонів значень) цілих чисел, кожне говорить про те, наскільки добре (або "глибоко") ця позиція в геномі охоплена. Я хотів би шукати "долини" в цих даних, тобто регіони, які значно "нижчі", ніж їх навколишнє середовище. Зауважте, що розмір …

10 r distributions statistical-significance data-visualization

2

Чи можна безпосередньо читати стовпці CSV як категоричні дані?

Мені потрібно проаналізувати з R дані з медичного обстеження (зі 100+ кодованими стовпцями), що надходять у CSV. Я використаю брязкальця для початкового аналізу, але за кадром все-таки R. Якщо я читаю файл.csv () , то стовпці з числовими кодами розглядаються як числові дані. Я знаю, що міг би створити з …

10 r categorical-data data-transformation

2

K-найближчий-сусід з безперервними та бінарними змінними

У мене є набір даних із стовпцями a b c(3 атрибути). aє чисельною і безперервним в той час як bі cкатегорично кожен з двома рівнями. Я використовую метод K-Найближчих сусідів для класифікації aта bввімкнення c. Отже, щоб можна було виміряти відстані, я перетворюю свій набір даних, видаляючи bта додаючи b.level1і …

10 r classification k-nearest-neighbour

1

Чому б ви передбачили модель змішаного ефекту, не враховуючи випадкових ефектів для прогнозування?

Це скоріше концептуальне запитання, але в міру використання Rя буду посилатися на пакунки в R. Якщо мета полягає у встановленні лінійної моделі для прогнозування, а потім робити прогнози, коли випадкові ефекти можуть бути недоступні, чи є користь від використання моделі змішаних ефектів, чи слід використовувати замість неї модель з фіксованим …

10 r multiple-regression mixed-model lme4-nlme

1

Студизовані залишки v / s стандартизовані залишки в lm-моделі

Чи "студизовані залишки" та "стандартизовані залишки" однакові у регресійних моделях? Я побудував модель лінійної регресії в R і хотів побудувати графік встановлених значень Studentized залишків v / s, але не знайшов автоматизованого способу зробити це в Р. Припустимо, у мене є модель library(MASS) lm.fit <- lm(Boston$medv~(Boston$lstat)) то використання plot(lm.fit)не дає …

10 r regression residuals terminology

2

Як довести співпрацю з поведінкових послідовностей

Ситуація: дві птиці (самець і самка) захищають свої яйця в гнізді від зловмисника. Кожна птах може використовувати або захист від нападу, або загрозу, і бути присутнім або відсутнім. З даних випливає закономірність, що поведінка може бути взаємодоповнюючим - напади чоловіків, тоді як жінки використовують загрозу і навпаки. Моє запитання: як …

10 r sequence-analysis

1

Як намалювати встановлений графік та фактичний графік розподілу гамми в одному сюжеті?

Завантажте необхідний пакет. library(ggplot2) library(MASS) Створіть 10 000 чисел, пристосованих до розподілу гами. x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] Намалюйте функцію густини ймовірностей, припускаючи, що ми не знаємо, до якого розподілу x підходив. t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() …

10 r mathematical-statistics goodness-of-fit gamma-distribution ggplot2

2

Точно як Rx coxph () поводиться з повторними заходами?

Контекст Я намагаюся зрозуміти, як coxph () приймає та обробляє повторні записи для предметів (або пацієнта / замовника, якщо вам зручніше). Одні називають цей формат Лонг, інші називають це «повторними заходами». Дивіться, наприклад, набір даних, що включає стовпчик ідентифікатора в розділі Відповіді за адресою: Найкращі пакети для моделей Cox з …

10 r repeated-measures survival cox-model frailty

1

Чи точне тлумачення рідкості?

Відповідно до документації removeSparseTermsфункції з tmпакету, це тягне за собою рідкість: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with a sparse factor …

10 r text-mining natural-language

1

Перехресне підтвердження регресії ласо в R

Функція R cv.glm (бібліотека: завантаження) обчислює оцінену помилку передбачення перехресної перевірки K-кратного для узагальнених лінійних моделей і повертає дельту. Чи є сенс використовувати цю функцію для регресії ласо (бібліотека: glmnet), і якщо так, то як це можна виконати? Бібліотека glmnet використовує перехресну перевірку, щоб отримати найкращий параметр повороту, але я …

10 r regression cross-validation lasso glmnet

1

Що повідомляє lsmeans для узагальненої лінійної моделі, такої як змішана модель Пуассона (підходить до glmer)?

Я аналізую дані відстеження очей із розробленого експерименту. Спрощена версія моїх даних виглядає приблизно так (дані dput () можна отримати тут ), head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 …

10 r mixed-model poisson-regression lsmeans lme4-nlme

Запитання з тегом «r»