Коли я вивчав питання щодо достатності, я натрапив на ваше запитання, тому що я також хотів зрозуміти інтуїцію про те, що я зібрав, це те, що я придумав (дайте мені знати, що ви думаєте, якщо я допустив помилки тощо).
Нехай - випадкова вибірка з розподілу Пуассона із середнім θ > 0 .X1,…,Xnθ>0
Ми знаємо, що є достатньою статистикою для θ , оскільки умовний розподіл X 1 , … , X n, заданий T ( X ), не містить θ , іншими словами, не залежать від θ .T(X)=∑ni=1XiθX1,…,XnT(X)θθ
Тепер статистик знає, що X 1 , … , X n i . i . d ∼ P o i s s o n ( 4 ) і створює n = 400 випадкових значень з цього розподілу:A X1,…,Xn∼i.i.dPoisson(4)n=400
n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)
freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)
Для значень , які створив статистик , він бере його суму і запитує статистику В наступне:AB
"У мене є ці вибіркові значення взяті з розподілу Пуассона. Знаючи, що ∑ n i = 1 x i = y = 4068 , що ви можете сказати мені про цей розподіл?"x1,…,xn∑ni=1xi=y=4068
Отже, знаючи лише, що (і той факт, що зразок виник з розподілу Пуассона), достатньо, щоб статистик В нічого не сказав про θ ? Оскільки ми знаємо, що це достатня статистика, ми знаємо, що відповідь - «так».∑ni=1xi=y=4068Bθ
Щоб отримати деяку інтуїцію щодо сенсу цього, давайте зробимо наступне (взято з "Введення в математичну статистику" Хогга та Маккена та Крейга, 7-е видання, вправа 7.1.9):
" вирішує створити кілька фальшивих спостережень, які він називає z 1 , z 2 , ... , z n (оскільки він знає, що вони, ймовірно, не будуть рівними початкових x- значень) наступним чином. Він зазначає, що умовна ймовірність незалежного Пуассона випадкові величини Z 1 , Z 2 … , Z n дорівнює z 1 , z 2 , … , z n , заданому ∑ z i = y , єBz1,z2,…,znxZ1,Z2…,Znz1,z2,…,zn∑zi=y
θz1e−θz1!θz2e−θz2!⋯θzne−θzn!nθye−nθy!=y!z1!z2!⋯zn!(1n)z1(1n)z2⋯(1n)zn
Y=∑Zinθyn1/nByz1,…,zn
Про це вказує вправа. Отже, зробимо саме це:
# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)
Zk=0,1,…,13
# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"),
col = c("black","green"),pch=c(1,4))
θY=∑Xin
Х і Z| у:
plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))
Ми бачимо, що вони дуже схожі (як і очікувалося)
Отже, «з метою прийняття статистичного рішення ми можемо ігнорувати окремі випадкові величини Хi і базувати рішення повністю на Y= X1+ X2+ ⋯ + Xн"(Еш, Р." Статистичні умовиводи: стислий курс ", стор. 59).