Достатня статистика для неспеціалістів

23

Чи може хтось, будь-ласка, пояснити достатню статистику дуже елементарними термінами? Я походжу з інженерного досвіду, і я пережив багато речей, але не зміг знайти інтуїтивного пояснення.

machine-learning mathematical-statistics intuition

— user1343318
джерело

33

Достатня статистика підсумовує всю інформацію, що міститься у вибірці, щоб ви могли оцінити той самий параметр, чи ми дали вам вибірку, чи просто саму статистику. Це скорочення даних без втрати інформації.

Ось один приклад. Припустимо, має симетричний розподіл приблизно до нуля. Замість того, щоб дати вам вибірку, я надішлю вам вибірку абсолютних значень (це статистика). Ви не можете побачити знак. Але ви знаєте, що розподіл симетричний, тому для заданого значення , і однаково ймовірні (умовна ймовірність ). Так ви можете перевернути справедливу монету. Якщо мова йде про голови, зробіть це негативним. Якщо хвости, зробіть це позитивним. Це дає вам зразок з , який має таке ж розподіл, що і вихідні дані . Ви в основному змогли реконструювати дані зі статистичних даних. Ось що робить його достатнім. $X$ $x$ $-x$ $x$ $0.5$ $x$ $X'$ $X$

— Мастеров Дмитро Васильович
джерело

Для уточнення / підтвердження: статистики достатньо для параметра. У цьому прикладі немає жодного параметра, але я вважаю, що статистика буде достатньою для будь-якого параметра обраного параметричного розподілу X? Тож це щось незвичайний приклад - але все-таки корисний для інтуїції.

— Дензілое

2

@Denziloe Достатній для будь-якого параметра такого розподілу, при сильних припущеннях симетрії близько 0. Це іграшковий приклад, розроблений для побудови інтуїції.

— Мастеров Дмитро Васильович

13

У байєсівських термінах ви маєте деяке спостережуване властивість $X$ та параметр $\Theta$ . Спільний розподіл для $X,\Theta$ визначений, але враховується як умовний розподіл $X\mid \Theta$ та попередній розподіл $\Theta$ . Статистика $T$ достатня для цієї моделі тоді і лише тоді, коли задній розподіл $\Theta\mid X$ такий же, як у $\Theta\mid T(X)$ , для кожного попереднього розподілу $\Theta$ . Словом, ваша оновлена невизначеність щодо $\Theta$ після того, як знаєте значення $X$ такого жяк оновлена невизначеність щодо $\Theta$ ; після знаючи значення $T(X)$ ,незалежноапріорної інформації ви маєте про $\Theta$ . Майте на увазі, що достатність - це концепція, що залежить від моделі.

— Дзен
джерело

1

Скажіть, у вас є монета, і ви не знаєте, справедлива вона чи ні. Іншими словами, вона має ймовірність $p$ підняти голови ( $H$ ) і $1 - p$ підійдуть хвостів ( $T$ ), і ви не знаєте значення $p$ .

Ви намагаєтесь зрозуміти значення $p$ , підкинувши монету кілька разів, скажімо, $n$ разів.

Скажімо, $n = 5$ і результат, який ви отримаєте, - це послідовність $(H, H, T, H, T)$ .

Тепер ви хочете, щоб ваш друг-статистик оцінив значення $p$ для вас і, можливо, сказав вам, чи монета, ймовірно, буде справедливою чи ні. Яку інформацію вам потрібно їм повідомити, щоб вони могли робити свої розрахунки та робити свої висновки?

Ви можете їм повідомити всі дані, тобто $(H, H, T, H, T)$ . Це потрібно, хоча? Чи могли б ви узагальнити ці дані, не втрачаючи жодної відповідної інформації?

Зрозуміло, що порядок викидання монети не має значення, оскільки ви робили те саме, що викидали кожну монету, а кидання монети не впливало один на одного. Якщо натомість результат був $(H, H, T, T, H)$ , наприклад, наші висновки не відрізнятимуться. Звідси випливає, що все, що вам потрібно сказати своєму другові-статистику, - це кількість підрахунків.

Ми виражаємо це, кажучи, що кількість голів є достатньою статистикою для p .

Цей приклад дає аромат концепції. Читайте далі, якщо ви хочете побачити, як це пов'язано з формальним визначенням.

Формально статистики достатньо для параметра, якщо, враховуючи значення статистики, розподіл ймовірності результатів не включає параметр.

У цьому прикладі, перш ніж ми дізнаємось кількість голів, ймовірність будь-якого результату - $p^\text{number of heads}(1 - p)^\text{n - number of heads}$ . Очевидно, це залежить від $p$ .

Але як тільки ми знаємо , що число головок 3 (або будь-яке інше значення), все результати з 3 - ма головками ( $(H, H, T, H, T)$ , $(H, H, T, T, H)$ , $...$ ) в однаковій мірі (насправді існує десять можливості , так що всі вони мають ймовірність $1/10$ ). Тож розподіл більше не має нічого спільного з $p$ . Інтуїтивно це означає, який би конкретний результат ми спостерігали, не дасть нам більше інформації про $p$ , оскільки на результати не впливає $p$ .

Зауважте, що ймовірність, перш ніж ми дізнаємось кількість голів, залежить лише від $p$ через $\text{number of heads}$ . Виявляється, це еквівалентно тому, що $\text{number of heads}$ достатня для $p$ .

— Дензілое
джерело