Це схоже на Bootstrap: оцінка знаходиться за межами довірчого інтервалу
У мене є деякі дані, які представляють кількість генотипів у популяції. Я хочу оцінити генетичне різноманіття за допомогою індексу Шеннона, а також генерувати довірчий інтервал, використовуючи завантажувальний інструмент. Я помітив, однак, що оцінка за допомогою завантажувальної програми, як правило, є надзвичайно упередженою та призводить до довірчого інтервалу, який лежить поза моєю спостережуваною статистикою.
Нижче наведено приклад.
# Shannon's index
H <- function(x){
x <- x/sum(x)
x <- -x * log(x, exp(1))
return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
H(tabulate(x[i]))
}
Генерація даних
set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]
Розрахунок
H(X)
## [1] 3.67948
xi <- rep(1:length(X), X)
H.boot(xi)
## [1] 3.67948
library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))
##
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
##
##
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
##
##
## Bootstrap Statistics :
## original bias std. error
## t1* 3.67948 -0.2456241 0.06363903
Генерування КІ з корекцією зміщення
boot.ci(boot.out, type = types)
## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
##
## CALL :
## boot.ci(boot.out = boot.out, type = types)
##
## Intervals :
## Level Normal Basic Percentile
## 95% ( 3.800, 4.050 ) ( 3.810, 4.051 ) ( 3.308, 3.549 )
## Calculations and Intervals on Original Scale
Якщо припустити, що дисперсія t може бути використана для дисперсії t0 .
norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]
## [1] 3.55475 3.80421
Чи було б правильно повідомити ІС, орієнтовану навколо t0 ? Чи є кращий спосіб генерувати завантажувальний пакет?