BOUNTY:
Повна винагорода буде присуджена тому, хто подасть посилання на будь-який опублікований документ, який використовує або згадує оцінювач нижче.
Мотивація:
Цей розділ для вас, мабуть, не важливий, і я підозрюю, що він не допоможе вам отримати винагороду, але оскільки хтось запитав про мотивацію, ось над чим я працюю.
Я працюю над проблемою теорії статистичних графів. Стандартний щільний графік, що обмежує об'єкт є симетричною функцією в тому сенсі, що . Вибірка графіка на вершинах можна вважати вибіркою рівномірних значень на одиничному інтервалі ( для ), і тоді ймовірність ребра - . Нехай результуюча матриця суміжності називатися .
Ми можемо трактувати як щільність якщо вважати, що \ iint W> 0 . Якщо ми оцінюємо f на основі A без будь-яких обмежень до f , то не можемо отримати послідовну оцінку. Я знайшов цікавий результат щодо послідовної оцінки f, коли f походить від обмеженого набору можливих функцій. З цієї оцінки і \ суми А , ми можемо оцінити W .
На жаль, знайдений нами метод виявляє послідовність, коли ми вибираємо з розподілу щільність . Спосіб побудови вимагає, щоб я відібрав сітку точок (на відміну від отримання малюнків з оригіналу ). У цьому питанні stats.SE я запитую 1-мірну (простішу) проблему того, що відбувається, коли ми можемо випробовувати зразки Бернулліса на такій сітці, а не насправді вибирати безпосередньо з розподілу.
посилання на обмеження графіка:
Л. Ловаш та Б. Сегеді. Межі послідовностей щільних графів ( arxiv ).
К. Боргс, Дж. Чайес, Л. Ловаш, В. Сос і К. Вестергомбі. Збіжні послідовності щільних графіків i: частоти підграфа, метричні властивості та тестування. ( арксів ).
Позначення:
Розглянемо безперервний розподіл cdf та pdf який має позитивну підтримку на інтервалі . Припустимо, не має точковоїмаси, скрізь диференційований, а також, що є надсумою на проміжку . Нехай означає , що випадкова величина вибірка з розподілу . є однорідними випадковими змінними на .
Налаштування проблеми:
Часто ми можемо дозволити бути випадковими змінними з розподілом і працювати зі звичайною емпіричною функцією розподілу як де - функція індикатора. Зауважимо, що цей емпіричний розподіл сам по собі випадковий (де зафіксовано).
На жаль, я не можу малювати зразки безпосередньо з . Однак я знаю, що має позитивну підтримку лише на , і я можу генерувати випадкові величини де - випадкова величина з розподілом Бернуллі з вірогідністю успіху де і визначені вище. Отже, . Один із очевидних способів, який я міг би оцінити з цих значень - взявши де
Запитання:
З (що я думаю, що має бути) найлегше - найважче.
Хтось знає, чи має цей (чи щось подібне) ім'я? Чи можете ви надати посилання, де я бачу деякі його властивості?
Як , чи є послідовний оцінювач (і чи можете ви це довести)?
Який обмежуючий розподіл як ?
В ідеалі я хотів би пов'язати наступне як функцію - наприклад, , але я не знаю, що таке правда. означає Big O за ймовірністю
Деякі ідеї та замітки:
Це дуже схоже на вибірку прийняття-відхилення з розшаруванням на основі сітки. Зауважте, що це не тому, що там ми не малюємо іншого зразка, якщо відхиляємо пропозицію.
Я майже впевнений, що цей є упередженим. Я думаю, що альтернатива є неупередженою, але вона має неприємну властивість, .
Мені цікаво використовувати як плагін-оцінювач . Я не думаю, що це корисна інформація, але, можливо, ви знаєте якусь причину, чому це може бути.
Приклад в R
Ось декілька код R, якщо ви хочете порівняти емпіричний розподіл з . Вибачте, що деякі відступи неправильні ... Я не розумію, як це виправити.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
ЗМІНИ:
РЕДАКЦІЯ 1 -
Я відредагував це на адресу коментарів @ whuber.
EDIT 2 -
Я додав R-код і трохи більше очистив його. Я трохи змінив позначення на предмет читабельності, але це по суті те саме. Я планую викласти за це щедро, як тільки мені це дозволять, тому, будь ласка, повідомте мене, якщо ви хочете отримати додаткові роз'яснення.
EDIT 3 -
Я думаю, я звернувся із зауваженнями @ кардинала. Я зафіксував помилки друку в загальній варіації. Я додаю щедрості.
EDIT 4 -
Додано розділ "мотивація" для @cardinal.