Чи існує якась команда для пошуку стандартної помилки середнього значення в R?
Відповіді:
Стандартна помилка (SE) - це лише стандартне відхилення розподілу вибірки. Дисперсія розподілу вибірки - це дисперсія даних, поділена на N, а SE - квадратний корінь з них. Виходячи з цього розуміння, можна зрозуміти, що ефективніше використовувати дисперсію в розрахунку SE. sd
Функція R вже робить один квадратний корінь (код sd
знаходиться в R і розкривається, просто набравши «сд»). Тому наступне є найбільш ефективним.
se <- function(x) sqrt(var(x)/length(x))
для того, щоб зробити функцію лише трохи складнішою та обробити всі параметри, до яких ви могли перейти var
, ви можете внести цю модифікацію.
se <- function(x, ...) sqrt(var(x, ...)/length(x))
Використовуючи цей синтаксис, можна скористатися такими речами, як порядок роботи var
з відсутніми значеннями. У var
цьому se
виклику може бути використано все, що може бути передано як іменований аргумент .
stderr
це назва функції в base
.
stderr
НЕ обчислює стандартну помилку, яку він відображаєdisplay aspects. of connection
stderr
обчислює стандартну помилку, він попереджав, що це ім'я використовується в основі, і Джон спочатку назвав свою функцію stderr
(перевірте історію редагування ...).
Версія відповіді Джона вище, яка усуває настирливі НС:
stderr <- function(x, na.rm=FALSE) {
if (na.rm) x <- na.omit(x)
sqrt(var(x)/length(x))
}
stderr
в base
пакеті існує функція, що викликається іншим способом, тому, можливо, буде краще вибрати іншу назву для цієї, наприкладse
Пакет sciplot має вбудовану функцію se (x)
Оскільки я періодично повертаюся до цього питання, і оскільки це питання застаріле, я публікую орієнтир для найбільш голосованих відповідей.
Зауважте, що для відповідей @ Ian's та @ John я створив іншу версію. Замість того, щоб використовувати length(x)
, я використовував sum(!is.na(x))
(щоб уникнути НС). Я використав вектор 10 ^ 6 з 1000 повторень.
library(microbenchmark)
set.seed(123)
myVec <- rnorm(10^6)
IanStd <- function(x) sd(x)/sqrt(length(x))
JohnSe <- function(x) sqrt(var(x)/length(x))
IanStdisNA <- function(x) sd(x)/sqrt(sum(!is.na(x)))
JohnSeisNA <- function(x) sqrt(var(x)/sum(!is.na(x)))
AranStderr <- function(x, na.rm=FALSE) {
if (na.rm) x <- na.omit(x)
sqrt(var(x)/length(x))
}
mbm <- microbenchmark(
"plotrix" = {plotrix::std.error(myVec)},
"IanStd" = {IanStd(myVec)},
"JohnSe" = {JohnSe(myVec)},
"IanStdisNA" = {IanStdisNA(myVec)},
"JohnSeisNA" = {JohnSeisNA(myVec)},
"AranStderr" = {AranStderr(myVec)},
times = 1000)
mbm
Результати:
Unit: milliseconds
expr min lq mean median uq max neval cld
plotrix 10.3033 10.89360 13.869947 11.36050 15.89165 125.8733 1000 c
IanStd 4.3132 4.41730 4.618690 4.47425 4.63185 8.4388 1000 a
JohnSe 4.3324 4.41875 4.640725 4.48330 4.64935 9.4435 1000 a
IanStdisNA 8.4976 8.99980 11.278352 9.34315 12.62075 120.8937 1000 b
JohnSeisNA 8.5138 8.96600 11.127796 9.35725 12.63630 118.4796 1000 b
AranStderr 4.3324 4.41995 4.634949 4.47440 4.62620 14.3511 1000 a
library(ggplot2)
autoplot(mbm)
Ви можете використовувати функцію stat.desc із пакета pastec.
library(pastec)
stat.desc(x, BASIC =TRUE, NORMAL =TRUE)
Ви можете дізнатись більше про це тут: https://www.rdocumentation.org/packages/pastecs/versions/1.3.21/topics/stat.desc
Пам'ятаючи, що середнє значення можна також отримати, використовуючи лінійну модель, регресуючи змінну до одного перехоплення, ви можете також використовувати lm(x~1)
для цього функцію!
Переваги:
confint()
car::linear.hypothesis()
sandwich
## generate data
x <- rnorm(1000)
## estimate reg
reg <- lm(x~1)
coef(summary(reg))[,"Std. Error"]
#> [1] 0.03237811
## conpare with simple formula
all.equal(sd(x)/sqrt(length(x)),
coef(summary(reg))[,"Std. Error"])
#> [1] TRUE
## extract confidence interval
confint(reg)
#> 2.5 % 97.5 %
#> (Intercept) -0.06457031 0.0625035
Створено 06.10.2020 пакетом reprex (v0.3.0)
y <- mean(x, na.rm=TRUE)
sd(y)
для стандартного відхилення var(y)
для дисперсії.
Обидва виведення використовують n-1
у знаменнику, тому вони базуються на даних вибірки.