Яка інтуїція стоїть за визначенням повноти в статистиці як такої, що неможливо сформувати з неї об'єктивний оцінювач ?

21

У класичній статистиці існує визначення, що статистичний набору даних визначений як повний для параметра , неможливо сформувати з нього непідвладне оцінювач нетривіально. Тобто єдиний спосіб мати для всіх - це бути майже точно. $T$ $y_1, \ldots, y_n$ $\theta$ $0$ $E h(T (y )) = 0$ $\theta$ $h$ $0$

Чи є за цим інтуїція? Це здається досить механічним способом визначення цього, я усвідомлюю, що про це просили і раніше, але мені було цікаво, чи існує дуже легка для розуміння інтуїція, яка допоможе студентам-початківцям легше перетравити матеріал.

— user1398057
джерело

2

Це дуже гарне запитання, мені довелося самому в цьому копатися. Виявляється, причина такої механічної дефініції і не здається інтуїтивно значущою для такого практичного лікаря, як я, в тому, що вона в першу чергу використовується для доказу фундаментальних внесків у математичній статистиці. Зокрема, мій короткий пошук виявив, що теорема Леманна-Шеффе та теорема Басу потребують повноти статистики для того, щоб дотримуватися. Це внески середини 1950-х. Я не можу запропонувати вам інтуїтивного пояснення - але якщо ви дійсно хочете побудувати його, можливо, доказівник

— Jeremias K

18

Я спробую додати до іншої відповіді. По-перше, повнота - це технічний стан, який в основному виправдовується теоремами, які його використовують. Тож почнемо з деяких суміжних понять і теорем, де вони виникають.

Нехай являє собою вектор iid даних, який ми як розподіл де параметр управляє даними невідомо. є достатнім , якщо умовний розподіл не залежить від параметра . є допоміжним, якщо розподіл не залежить від (всередині сімейства ). - об'єктивний оцінювач нуля, якщо його очікування дорівнює нулю, незалежно від $X=(X_1,X_2,\dotsc,X_n)$ $f(x;\theta), \theta \in \Theta$ $\theta$ $T=T(X)$ $X \mid T$ $\theta$ $V=V(X)$ $V$ $\theta$ $f(x;\theta)$ $U=U(X)$ $\theta$ . - повна статистика, якщо будь-який об'єктивний оцінювач нуля на основі однаково нульовий, тобто якщо то ae (для всіх ). $S=S(X)$ $S$ $\DeclareMathOperator{\E}{\mathbb{E}} \E g(S)=0 (\text{for all $\theta$})$ $g(S)=0$ $\theta$

Тепер, припустимо, у вас є два різних об'єктивних оцінювача на основі достатньої статистики , . Тобто в символах і (для всіх ). Тоді - це неупереджений оцінювач нуля, який не є тотожним нулем, доводячи, що не є повним. Отже, повнота достатньої статистичної дає нам змогу існувати лише один унікальний об'єктивний оцінювач на основі $\theta$ $T$ $g_1(T), g_2(T)$

E g_{1} (T) = θ, E g_{2} (T) = θ

$\E g_1(T)=\theta ,\\ \E g_2(T)=\theta$

P (g_{1} (T) \neq g_{2} (T)) > 0

$\DeclareMathOperator{\P}{\mathbb{P}} \P(g_1(T) \not= g_2(T) ) > 0$

θ

$\theta$

g_{1} (T) - g_{2} (T)

$g_1(T)-g_2(T)$

T

$T$

T

$T$

θ

$\theta$

T

$T$ . Це вже дуже близько до теореми Леманна – Шеффе.

Розглянемо деякі приклади. Припустимо, тепер є однаковими на проміжку . Ми можемо показати, що ( - статистика порядку) пара достатня, але вона не повна, тому що різниця є допоміжною, ми можемо обчислити її очікування, нехай це буде (що є лише функцією ), а потім $X_1, \dotsc, X_n$ $(\theta, \theta+1)$ $X_{(1)} < X_{(2)} < \dotsm < X_{(n)}$ $(X_{(1)}, X_{(n)})$ $X_{(n)}-X_{(1)}$ $c$ $n$ $X_{(n)}-X_{(1)} -c$ буде неупередженим оцінником нуля, який не є ідентичним нулем. Тож наша достатня статистика в даному випадку не є повною та достатньою. І ми можемо побачити, що це означає: існують функції достатньої статистики, які не є інформативними щодо (в контексті моделі). Це не може статися з цілком достатньою статистикою; вона в певному сенсі є максимально інформативною, оскільки жодна її функція неінформативна. З іншого боку, якщо є якась функція мінімально достатньої статистики, яка має нуль очікування, це може розглядатися як термін шуму, умови збурення / шуму в моделях мають нульове очікування. Тож можна сказати, що неповна достатня статистика містить певний шум . $\theta$

Подивіться ще раз на діапазон у цьому прикладі. Оскільки його розповсюдження не залежить від , воно само по собі не містить будь-якої інформації про . Але разом із достатньою статистикою це і є! Як? Подивіться на випадок, коли спостерігається Тоді в контексті нашої (як відомо, правдивої) моделі ми маємо досконалі знання ! А саме, ми можемо з упевненістю сказати, що . Ви можете перевірити, що будь-яке інше значення для приводить до або $R=X_{(n)}-X_{(1)}$ $\theta$ $\theta$ $R=1$ $\theta$ $\theta = X_{(1)}$ $\theta$ $X_{(1)}$ $X_{(n)}$ будучи неможливим спостереженням за припущеною моделлю. З іншого боку, якщо ми спостерігаємо , то діапазон можливих значень для досить великий (вправа ...). $R=0.1$ $\theta$

У цьому сенсі допоміжна статистика дійсно містить деяку інформацію про точність, з якою ми можемо оцінити на основі цих даних та моделі. У цьому прикладі та інших допоміжна статистика "бере на себе роль розміру вибірки". Зазвичай для довірчих інтервалів і таких потрібен розмір вибірки , але в цьому прикладі ми можемо скласти умовний довірчий інтервал, який обчислюється, використовуючи лише , а не (вправа.) Це була ідея Фішера, про що слід вважати умовивід деяка допоміжна статистика. $R$ $\theta$ $R$ $n$ $R$ $n$

Тепер теорема Басу: Якщо достатньо повний, то він не залежить від будь-якої допоміжної статистики. Тобто, висновок, заснований на цілком достатній статистиці, простіший, оскільки нам не потрібно вважати умовний умовивід. Умови для незалежної від статистики , звичайно, нічого не змінюють. $T$ $T$

Потім, останній приклад, щоб дати ще трохи інтуїції. Змініть наш приклад рівномірного розподілу на рівномірний розподіл на інтервалі (з ). У цьому випадку статистика є повною і достатньою. Що змінилося? Ми можемо бачити, що повнота справді є властивістю моделі . У першому випадку у нас був простір з обмеженими параметрами. Це обмеження знищило повноту, ввівши зв'язки зі статистикою замовлень. Видаливши це обмеження, ми отримали повноту! Отже, у певному сенсі відсутність повноти означає, що простір параметрів недостатньо великий, і, збільшивши його, ми можемо сподіватися відновити повноту (і, таким чином, простіше зробити висновок). $(\theta_1, \theta_2)$ $\theta_1<\theta_2$ $(X_{(1)}, X_{(n)})$

Деякі інші приклади, коли недостатня повнота викликана обмеженнями простору параметрів,

дивіться мою відповідь на: Яка інформація - це інформація Фішера?
Нехай буде (модель масштабування місця). Тоді статистика замовлень достатня, але не повна. Але тепер збільшити цю модель повністю непараметричної моделі, до сих пір IID , але з деяким повністю невизначеним розподілом . Тоді статистика замовлень достатня і повна. $X_1, \dotsc, X_n$ $\mathcal{Cauchy}(\theta,\sigma)$ $F$
Для експоненціальних сімей з канонічним простором параметрів (тобто якнайбільше) мінімально достатня статистика також є повною. Але в багатьох випадках введення обмежень на простір параметрів, як і у кривих експоненціальних сімей , руйнує повноту.

Дуже актуальною статтею є Інтерпретація повноти та теорема Басу.

— kjetil b halvorsen
джерело

7

Певна інтуїція може бути доступна з теорії найкращих (мінімальної дисперсії) неупереджених оцінювачів.

Якщо то - найкращий неупереджений оцінювач iff некорельований з усіма неупередженими оцінками нуля. $E_\theta W=\tau(\theta)$ $W$ $\tau(\theta)$ $W$

Доведення : Нехай - неупереджений оцінювач, не пов'язаний зі всіма неупередженими оцінками нуля. Нехай - інший оцінювач, такий що . Запишіть . За припущенням, . Отже, для будь-якого . $W$ $W'$ $E_\theta W'=E_\theta W=\tau(\theta)$ $W'=W+(W'-W)$ $Var_\theta W'=Var_\theta W+Var_\theta (W'-W)$ $W'$ $Var_\theta W'\geq Var_\theta W$

Тепер припустимо, що - найкращий об'єктивний оцінювач. Нехай буде якийсь інший оцінювач з . також не є об'єктивним для . У нас Якби було таке , що , ми отримаємо для . Тоді не може бути найкращим об'єктивним оцінювачем. QED $W$ $U$ $E_\theta U=0$ $\phi_a:=W+aU$ $\tau(\theta)$

V a r_{θ} ϕ_{a} := V a r_{θ} W + 2 a C o v_{θ} (W, U) + a^{2} V a r_{θ} U .

$Var_\theta \phi_a:=Var_\theta W+2aCov_\theta(W,U)+a^2Var_\theta U.$

θ_{0} \in Θ

$\theta_0\in\Theta$

C o v_{θ_{0}} (W, U) < 0

$Cov_{\theta_0}(W,U)<0$

V a r_{θ} ϕ_{a} < V a r_{θ} W

$Var_\theta \phi_a<Var_\theta W$

a \in (0, - 2 C o v_{θ_{0}} (W, U) / V a r_{θ_{0}} U)

$a\in(0,-2Cov_{\theta_0}(W,U)/Var_{\theta_0} U)$

W

$W$

Інтуїтивно зрозумілий результат говорить про те, що якщо оцінювач є оптимальним, його не можна вдосконалити, додавши до нього якийсь шум, у сенсі поєднання його з оцінкою, який в середньому дорівнює нулю (будучи неупередженим оцінкою нуля ).

На жаль, важко охарактеризувати всі об'єктивні оцінки нуля. Ситуація стає набагато простішою, якщо нуль сам по собі є єдиним неупередженим нуля, оскільки будь-яка статистика задовольняє . Повнота описує таку ситуацію. $W$ $Cov_\theta(W,0)=0$

— Крістоф Ганк
джерело