Альтернатива емпіричного розподілу


13

BOUNTY:

Повна винагорода буде присуджена тому, хто подасть посилання на будь-який опублікований документ, який використовує або згадує оцінювач нижче.F~

Мотивація:

Цей розділ для вас, мабуть, не важливий, і я підозрюю, що він не допоможе вам отримати винагороду, але оскільки хтось запитав про мотивацію, ось над чим я працюю.

Я працюю над проблемою теорії статистичних графів. Стандартний щільний графік, що обмежує об'єкт є симетричною функцією в тому сенсі, що . Вибірка графіка на вершинах можна вважати вибіркою рівномірних значень на одиничному інтервалі ( для ), і тоді ймовірність ребра - . Нехай результуюча матриця суміжності називатися .W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

Ми можемо трактувати як щільність якщо вважати, що \ iint W> 0 . Якщо ми оцінюємо f на основі A без будь-яких обмежень до f , то не можемо отримати послідовну оцінку. Я знайшов цікавий результат щодо послідовної оцінки f, коли f походить від обмеженого набору можливих функцій. З цієї оцінки і \ суми А , ми можемо оцінити W .Wf=W/WW>0fAfffAW

На жаль, знайдений нами метод виявляє послідовність, коли ми вибираємо з розподілу щільність . Спосіб побудови вимагає, щоб я відібрав сітку точок (на відміну від отримання малюнків з оригіналу ). У цьому питанні stats.SE я запитую 1-мірну (простішу) проблему того, що відбувається, коли ми можемо випробовувати зразки Бернулліса на такій сітці, а не насправді вибирати безпосередньо з розподілу.fAf

посилання на обмеження графіка:

Л. Ловаш та Б. Сегеді. Межі послідовностей щільних графів ( arxiv ).

К. Боргс, Дж. Чайес, Л. Ловаш, В. Сос і К. Вестергомбі. Збіжні послідовності щільних графіків i: частоти підграфа, метричні властивості та тестування. ( арксів ).

Позначення:

Розглянемо безперервний розподіл cdf та pdf який має позитивну підтримку на інтервалі . Припустимо, не має точковоїмаси, скрізь диференційований, а також, що є надсумою на проміжку . Нехай означає , що випадкова величина вибірка з розподілу . є однорідними випадковими змінними на .Ff[0,1]fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Налаштування проблеми:

Часто ми можемо дозволити бути випадковими змінними з розподілом і працювати зі звичайною емпіричною функцією розподілу як де - функція індикатора. Зауважимо, що цей емпіричний розподіл сам по собі випадковий (де зафіксовано).X1,,XnF

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

На жаль, я не можу малювати зразки безпосередньо з . Однак я знаю, що має позитивну підтримку лише на , і я можу генерувати випадкові величини де - випадкова величина з розподілом Бернуллі з вірогідністю успіху де і визначені вище. Отже, . Один із очевидних способів, який я міг би оцінити з цих значень - взявши деFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
- це функція стелі (тобто просто до найближчого цілого числа) і перемалюйте, якщо (щоб уникнути ділення на нуль і змушення Всесвіту) . Зауважте, що також є випадковою змінною, оскільки є випадковими змінними.i=1nYi=0F~(t)Yi

Запитання:

З (що я думаю, що має бути) найлегше - найважче.

  1. Хтось знає, чи має цей (чи щось подібне) ім'я? Чи можете ви надати посилання, де я бачу деякі його властивості?F~n

  2. Як , чи є послідовний оцінювач (і чи можете ви це довести)?nF~n(t)F(t)

  3. Який обмежуючий розподіл як ?F~n(t)n

  4. В ідеалі я хотів би пов'язати наступне як функцію - наприклад, , але я не знаю, що таке правда. означає Big O за ймовірністюnOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Деякі ідеї та замітки:

  1. Це дуже схоже на вибірку прийняття-відхилення з розшаруванням на основі сітки. Зауважте, що це не тому, що там ми не малюємо іншого зразка, якщо відхиляємо пропозицію.

  2. Я майже впевнений, що цей є упередженим. Я думаю, що альтернатива є неупередженою, але вона має неприємну властивість, .F~n

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Мені цікаво використовувати як плагін-оцінювач . Я не думаю, що це корисна інформація, але, можливо, ви знаєте якусь причину, чому це може бути.F~n

Приклад в R

Ось декілька код R, якщо ви хочете порівняти емпіричний розподіл з . Вибачте, що деякі відступи неправильні ... Я не розумію, як це виправити.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

вихід із наведених даних

ЗМІНИ:

РЕДАКЦІЯ 1 -

Я відредагував це на адресу коментарів @ whuber.

EDIT 2 -

Я додав R-код і трохи більше очистив його. Я трохи змінив позначення на предмет читабельності, але це по суті те саме. Я планую викласти за це щедро, як тільки мені це дозволять, тому, будь ласка, повідомте мене, якщо ви хочете отримати додаткові роз'яснення.

EDIT 3 -

Я думаю, я звернувся із зауваженнями @ кардинала. Я зафіксував помилки друку в загальній варіації. Я додаю щедрості.

EDIT 4 -

Додано розділ "мотивація" для @cardinal.


1
Ваше запитання стало неоднозначним з того моменту, коли ви посилалися на невизначені об'єкти та використовували якісь ідіосинкратичні позначення. Наприклад, з'являється рано, але не має явного зв'язку з і лише читаючи набагато далі, ми дізнаємось, що ти думаєш про це як "не дискретний розподіл" - але що це за об'єкт? Що важливо, що означає " ?" "зазвичай означає supremum, але, можливо, це має щось з суттєвою підтримкою розподілу? Тому що все в питанні залежить від того, що це означає, я не можу мати сенс питання.fFsupzf(z)sup
whuber

1
Дякуємо @whuber за ваші коментарі. Будь ласка, повідомте мене, якщо переглянуте питання все ще заплутане.
користувач1448319

1
Ага! Це перший показник, який я бачив, що не є фіксованим і що вас цікавлять асимптотики. Якщо це правда, ви маєте гнучкість вибору , чи не відкриває це чимало можливостей, таких як адаптивний вибір вибіркових точок (а не обмеження фіксованою сіткою )? Також очевидно , ви робите неявні припущення, такі , що неперервна (еквівалентно, є абсолютно безперервної ). Що ще можна припустити про базовий розподіл який може допомогти в цьому аналізі? nn{i/n}fFF
whuber

2
Кілька інших запитань / зауважень: Мабуть неявно грунтується на тому, як ви пропонуєте побудувати що ви справді розглядаєте трикутний масив , для аналізу конвергенції. З того, як ви , здається, ви також повинні мати можливість (так само легко) вибірки випадкових величин Бернуллі з умовною ймовірністю успіху де - рівномірна випадкова величина. Це правда? (Трохи більше контексту до вашого питання, ймовірно, вирішить багато цих запитів.) Привіт. piYi,ni=1,,npif(U)/cU
кардинал

2
Це питання було вдосконалено настільки, що я навіть не розпізнав його, поки не зрозумів, що бачив коментарі раніше. Зараз це справді цікаве і набагато більш добре написане питання.
Glen_b -Встановіть Моніку

Відповіді:


1

Хоча ця довідка

РЕДАКТУВАННЯ: ДОБАВЛЕНО ПОСИЛАННЯ ДО ДУЖЕ ПОДІЛЬНОЇ СТАТИСТИКИ "Непараметричне оцінювання від неповних спостережень" Е. Л. Каплан та Пол Мейєр, Журнал Американської статистичної асоціації, Vol. 53, № 282 (черв., 1958), стор 457-481

не є вашим ECDF-подібним оцінювачем на Я вважаю, що він логічно еквівалентний оціннику Каплана-Мейєра (ака. оцінника ліміту продукту), який використовується в аналізі виживання, хоча це застосовується до часового діапазону .[0,1][0,)

Оцінка зміщення буде можливою, коли ви обгрунтовано оціните розподіл за допомогою згладжування ядра, якщо воно буде вестись досить добре (див., Наприклад, перетворення Хмаладзе у Вікіпедії).

У випадку біваріанта у вашій графічній задачі, що оцінює від хоча з тривіальною обмеженістю симетрії, схоже на підхід у Жана-Девіда Ферманіана, Драгана Радуловича та Мартена Вегкампа (2004), слабке зближення емпіричної копули процесів , Бернуллі , т. 10, ні. 5, 847–860, як @cardinal вказував «Багатовимірний метод дельти».f=W/WA


0

Це відповідає на питання 2 і 3 вище. Я все ще дуже хочу посилання (з питання 1).

Це ще не враховується, коли .Yi=0

Розглянемо , то де підписники позначають похідні. Нагадаємо, . Нехай Отже, зауважте, що і . Також, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Зауважте, що незалежністю s. Cov(R,S)=0Yi

Тепер ми використовуємо розширення Тейлора, щоб отримати

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
де Зокрема, ми отримуємо
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Будь ласка, коментуйте, якщо ви бачите щось не так у цьому.

ЗМІНИ:

Редагувати 1 -

Виправлено помилку у . Дякую @cardinal за вашу пропозицію в коментарях до питання 4.VF(t)

Редагувати 2 -

Виправлено безліч помилок: у мене було де я повинен був мати у багатьох місцях. Мені все ж потрібно звернутись до @ відповіді кардинала про .c1cYi=0


1
Шановний @user: Це на правильному шляху; ось кілька пропозицій. ( 1 ) Середнє значення не існує, принаймні, поки ви не вкажете, що відбувається, коли , тому строго кажучи, аналіз у відповіді невірний. Визначення поведінки в нулі порушить структуру незалежності, але все не втрачено. ( 2 ) По суті, те, що ви робите, - це застосовувати багатоваріантний дельта-метод. Зауважте, що для цього не потрібно існувати середнє значення , тому воно буде більш чистим (і правильніше), якщо ви підете цим маршрутом. F~n(t)iYi=0F~n(t)
кардинал

2
( 3 ) Пункт 4 у вашому списку обробляється наступним чином. Зауважте, щоПерший доданок праворуч -, так чітко . Вам залишається лише розібратися з середнім терміном, але це легко піддається нерівності Маркова, за якою слідує Дженсен, і також є .
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
кардинал

Шановний @user: Було б корисно ознайомитись із детальніше вашим зауваженням щодо того, що не потрібно розглядати справу . Те, що ви описуєте, - це умовний відбір проб. зумовлюють є НЕ незалежними (або умовно незалежними), тому (неявний) аналіз у відповідь не має. Це може бути корисно подивитися на випадку, щоб побачити це (просто намалюйте таблицю ). iYi=0Yi{iYi>0}n=22×2
кардинал

Як додатковий бік, можливо, варто відзначити, що, тому це визначення можна спростити. supCC|F~F|=01|F~F|
кардинал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.