Чому достатня статистика містить всю інформацію, необхідну для обчислення будь-якої оцінки параметра?


16

Я щойно почав вивчати статистику і не можу зрозуміти достатності. Якщо точніше, я не можу зрозуміти, як показати, що наступні два абзаци рівнозначні:

Приблизно, враховуючи набір X незалежних ідентично розподілених даних, обумовлених невідомим параметром θ, достатньою статистикою є функція T (X), значення якої містить всю інформацію, необхідну для обчислення будь-якої оцінки параметра.

Статистичний T (X) достатній для базового параметра θ саме, якщо умовний розподіл ймовірності даних X за даними статистики T (X) не залежить від параметра θ.

(Я взяв цитати з Достатньої статистики )

Хоча я розумію і друге твердження, і можу використовувати теорему факторизації, щоб показати, чи достатня дана статистика, я не можу зрозуміти, чому статистика з такою властивістю має також властивість, що вона "містить всю інформацію, необхідну для обчислення будь-якої оцінка параметра ". Я не шукаю формального доказу, який би в будь-якому випадку допоміг би вдосконалити своє розуміння, я хотів би отримати інтуїтивне пояснення, чому ці два твердження рівнозначні.

Для резюме, мої запитання: чому два твердження рівноцінні? Чи міг би хтось надати інтуїтивно зрозуміле пояснення їх еквівалентності?


1
Основна інтуїтивна ідея полягає в тому, що іноді вам не потрібно бачити весь зразок, оскільки ви можете знайти статистику, яка узагальнює всю інформацію, необхідну з вибірки. Візьмемо, наприклад, біноміальне розподіл: все, що потрібно знати для своєї моделі, - це сума успіхів. Ви не втратите нічого цінного , якби я тільки сказати, що , замість того , щоб показати вам весь набір дискретних значень х = { 1 , 0 , 0 , 1 , 0 , 1 , . . . } . inxi=cx={1,0,0,1,0,1,...}
муген

Я розумію, для чого мені потрібна достатня статистика та як показати, що сума успіхів є достатньою статистикою для p у процесі Бернуллі. Я не розумію, чому така статистика, як описана у другому абзаці, містить усю інформацію, необхідну для обчислення будь-якої оцінки параметра.
gcoll

3
Власне кажучи, перша цитата - це просто неправильно. Існує маса оцінок, які можна обчислити з усього набору даних, які неможливо обчислити виключно з достатньої статистики. Ось одна з причин цитата починається "приблизно". Інша причина полягає в тому, що вона не дає кількісного або суворого визначення поняття "інформація". Оскільки набагато точніша (але все ж інтуїтивна) характеристика була надана в попередньому пункті, однак із цією цитатою у відповідному контексті
whuber

1
Він має зв'язок з максимальною ймовірністю, і це, по суті, інформація, необхідна для максимальної ймовірності
Kamster

1
Після коментарів whuber та @Kamster, я, мабуть, зрозумів краще. Коли ми кажемо, що достатня статистика містить усю інформацію, необхідну для обчислення будь-якої оцінки параметра, чи ми маємо на увазі, що достатньо для обчислення максимальної оцінки ймовірності (що є функцією всієї достатньої статистики)? Це правда, все питання стосувалося (не) визначення поняття "інформація", як запропонував Юбер, і на моє запитання відповіли.
gcoll

Відповіді:


3

Після коментарів @whuber та @Kamster я, мабуть, зрозумів краще. Коли ми говоримо, що достатня статистика містить всю інформацію, необхідну для обчислення будь-якої оцінки параметра, то, що ми насправді маємо на увазі, це достатньо для обчислення максимальної оцінки ймовірності (що є функцією всієї достатньої статистики).

З огляду на те, що я відповідаю на власне запитання, і тому я не на 100% впевнений у відповіді, я не буду відзначати це як правильне, поки не отримаю певного відгуку. Будь ласка, додайте будь-які коментарі та голосування, якщо ви вважаєте, що я помиляюся / неточний / тощо ...

(Дайте мені знати, якщо це не сумісне з етикетом SE, тому що це моє перше запитання, я прошу вашої милості, якщо я порушую будь-яке правило)


1

Коли я вивчав питання щодо достатності, я натрапив на ваше запитання, тому що я також хотів зрозуміти інтуїцію про те, що я зібрав, це те, що я придумав (дайте мені знати, що ви думаєте, якщо я допустив помилки тощо).

Нехай - випадкова вибірка з розподілу Пуассона із середнім θ > 0 .X1,,Xnθ>0

Ми знаємо, що є достатньою статистикою для θ , оскільки умовний розподіл X 1 , , X n, заданий T ( X ), не містить θ , іншими словами, не залежать від θ .T(X)=i=1nXiθX1,,XnT(X)θθ

Тепер статистик знає, що X 1 , , X n i . i . d P o i s s o n ( 4 ) і створює n = 400 випадкових значень з цього розподілу:A X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Для значень , які створив статистик , він бере його суму і запитує статистику В наступне:AB

"У мене є ці вибіркові значення взяті з розподілу Пуассона. Знаючи, що n i = 1 x i = y = 4068 , що ви можете сказати мені про цей розподіл?"x1,,xni=1nxi=y=4068

Отже, знаючи лише, що (і той факт, що зразок виник з розподілу Пуассона), достатньо, щоб статистик В нічого не сказав про θ ? Оскільки ми знаємо, що це достатня статистика, ми знаємо, що відповідь - «так».i=1nxi=y=4068Bθ

Щоб отримати деяку інтуїцію щодо сенсу цього, давайте зробимо наступне (взято з "Введення в математичну статистику" Хогга та Маккена та Крейга, 7-е видання, вправа 7.1.9):

" вирішує створити кілька фальшивих спостережень, які він називає z 1 , z 2 , ... , z n (оскільки він знає, що вони, ймовірно, не будуть рівними початкових x- значень) наступним чином. Він зазначає, що умовна ймовірність незалежного Пуассона випадкові величини Z 1 , Z 2, Z n дорівнює z 1 , z 2 , , z n , заданому z i = y , єBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2eθz2!θzneθzn!nθyenθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

Y=Zinθyn1/nByz1,,zn

Про це вказує вправа. Отже, зробимо саме це:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

введіть тут опис зображення

θY=Xin

Х і Z|у:

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

enter image description here

Ми бачимо, що вони дуже схожі (як і очікувалося)

Отже, «з метою прийняття статистичного рішення ми можемо ігнорувати окремі випадкові величини Хi і базувати рішення повністю на Y=Х1+Х2++Хн"(Еш, Р." Статистичні умовиводи: стислий курс ", стор. 59).


0

Дозвольте дати ще одну точку зору, яка може допомогти. Це також якісно, ​​але існує сувора версія того, що особливо важливо в Теорії інформації - відомому як власність Маркова.

На початку у нас є два об'єкти, дані (що походять від випадкової змінної, називаємо це X) і параметр, θ(інший rv, мається на увазі, оскільки ми говоримо про його оцінювач). Ці два, вважаються залежними (інакше, немає сенсу намагатися оцінити одне від іншого). Тепер третій об’єкт входить у гру, достатня статистика, Т. Інтуїтивна ідея, коли ми говоримо, Т досить для оцінкиθ насправді означає, що якщо ми знаємо T (тобто обумовлений T), X не надає додаткової інформації, тобто X і θє незалежними. Іншим словом, знання X еквівалентне знанню Т настільки, наскільки це є оцінкоюθстурбований. Зауважимо, що у ймовірності - це місце, де відображаються всі невизначеності, а отже, "будь-яка оцінка", коли (умовні) ймовірності незалежні (наприклад, умовна щільність, що розбивається на фактори).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.