Упереджена завантажувальна програма: чи добре зосереджувати ІП навколо спостережуваної статистики?


13

Це схоже на Bootstrap: оцінка знаходиться за межами довірчого інтервалу

У мене є деякі дані, які представляють кількість генотипів у популяції. Я хочу оцінити генетичне різноманіття за допомогою індексу Шеннона, а також генерувати довірчий інтервал, використовуючи завантажувальний інструмент. Я помітив, однак, що оцінка за допомогою завантажувальної програми, як правило, є надзвичайно упередженою та призводить до довірчого інтервалу, який лежить поза моєю спостережуваною статистикою.

Нижче наведено приклад.

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

Генерація даних

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

Розрахунок

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

Генерування КІ з корекцією зміщення

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

Якщо припустити, що дисперсія t може бути використана для дисперсії t0 .

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

Чи було б правильно повідомити ІС, орієнтовану навколо t0 ? Чи є кращий спосіб генерувати завантажувальний пакет?

Відповіді:


12

У налаштуваннях, заданих ОП, цікавим параметром є ентропія Шеннона що є функцією вектора ймовірності pR 50 . Оцінка на основі п зразків ( п = 100 при моделюванні) є плагін оцінювання & thetas п = θ ( р п ) = - 50 Σ я =

θ(p)=i=150pilogpi,
pR50nn=100 Зразки генерували за допомогою рівномірного розподілу, для якого ентропія Шеннона -log(50)=3,912. Оскільки ентропія Шеннона максимізована при рівномірному розподілі, оцінювач плагінівповинен бути зміщений вниз. А моделювання показуєщобIаз( θ 100 )-0,28тоді як BIAs( θ
θ^n=θ(p^n)=i=150p^n,ilogp^n,i.
log(50)=3.912.bias(θ^100)0.28. Оцінювач плагінів є послідовним, алеΔ-метод не застосовується, коли р є рівномірним розподілом, оскільки похідна ентропії Шеннона дорівнює 0. Таким чином, для цього конкретного вибору р , довірчі інтервали на основі асимптотичних аргументів не очевидні . bias(θ^500)0.05Δpp

Процентиля інтервал заснований на розподілі & , де р * п є оцінкою , отриманої з вибірки п спостережень від р н . Зокрема, це інтервал від квантилу 2,5% до квантила 97,5% для розподілу θ ( p n ) . Як самозавантаження моделювання показує , що ОП, в θ ( р * п ) , очевидно , також вниз зміщена як оцінки thetas ; ( р п )θ(pn)pnnp^nθ(pn)θ(pn)θ(p^n), що призводить до того, що інтервал процентилів є абсолютно неправильним.

Для основного (і нормального) інтервалу ролі квантилів змінюються між собою. Це означає, що інтервал здається розумним (він охоплює 3.912), хоча інтервали, що виходять за рамки 3.912, не мають логічного значення. Більше того, я не знаю, чи буде базовий інтервал мати правильне покриття. Його обґрунтування ґрунтується на такій приблизній ідентичності розподілу:

θ(pn)θ(p^n)Dθ(p^n)θ(p),
nn=100

θ(p^n)±1.96se^n

θ(p)pθ(p)


5
1/n

@EdM це дуже корисна інформація. Я не знав літератури з цієї конкретної проблеми зміщення. Це може бути дуже корисно, якби ви могли перетворити коментар у відповідь, яка пояснює корекцію зміщення та те, як це можна було б використовувати при завантаженні, скажімо, для отримання довірчих інтервалів.
NRH

Я також не знав цієї літератури, поки не з’явилося це запитання та ваша відповідь. Що дещо бентежить, оскільки ентропія Шеннона часто використовується як міра в моїй галузі біомедичної науки. Я побачу, що я можу скласти як додаткову відповідь.
EdM

1
θ(pn)

1
nnn

7

Як вказує відповідь @NRH, проблема полягає не в тому, що завантажувальний процес давав необ’єктивний результат. Справа в тому, що проста "підключення" ентропії Шеннона, заснована на даних зразка, зміщена вниз від справжнього значення сукупності.

Ця проблема була визнана в 1950-х роках, протягом декількох років після визначення цього показника. У цьому документі розглядаються основні питання із посиланнями на супутню літературу.

p^n,ipn,i

θ^n=θ(p^n)=i=1Mp^n,ilogp^n,i.

нелінійне відношення означає, що отримане значення є упередженою недооцінкою справжнього генетичного різноманіття.

MN(M1)/2N

У R є пакети, які займаються цим питанням. Зокрема, simbootпакет має функцію, estShannonfяка вносить ці корективи зміщення, та функцію sbdivдля обчислення довірчих інтервалів. Краще використовувати такі усталені інструменти з відкритим кодом для свого аналізу, а не намагатися починати з нуля.


Отже, сам оцінювач помилковий через розмір вибірки? У simbootпакеті виглядає багатообіцяюче, але , здається , не підходять для моїх цілей , як це потрібно контрольний зразок для оцінки довірчих інтервалів.
ZNK

1
"Помилково" не зовсім правильно; Оцінювач "упереджений" тим, що його очікуване значення не таке, як фактичне значення сукупності. Це не означає, що це "помилково"; упереджені оцінки можуть бути корисними, як це проілюстровано компромісом з відхиленням відхилення при виборі оцінок. Якщо simbootне відповідає вашим потребам, Google «ентропія Шеннона зміщення г» посилання на інші пакети R , як entropy, entropartі EntropyEstimation.
EdM

1
Існують додаткові проблеми, що виникають через те, що деякі генотипи, наявні в популяції, ймовірно, будуть пропущені в будь-якій конкретній вибірці. Деякі з пакетів R, що базуються на населення та екології, мають шляхи вирішення цієї проблеми.
EdM
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.