Достатня статистика, специфіка / проблеми з інтуїцією


16

Я викладаю собі якусь статистику для розваги і в мене є певна плутанина щодо достатньої статистики . Я випишу свої плутанини у форматі списку:

  1. Якщо розподіл має параметрів, то чи матиме він достатньо статистичних даних?nнн

  2. Чи існує якась пряма відповідність між достатньою статистикою та параметрами? Або достатня статистика просто служить пулом "інформації", щоб ми могли відтворити налаштування, щоб ми могли обчислити однакові оцінки параметрів базового розподілу.

  3. Чи всі розподіли мають достатню статистику? тобто. чи може теорема факторизації колись вийти з ладу?

  4. Використовуючи наш зразок даних, ми припускаємо розподіл, з якого ці дані найімовірніше, і тоді можна обчислити оцінки (наприклад, MLE) для параметрів для розподілу. Достатня статистика - це спосіб розрахувати однакові оцінки параметрів, не покладаючись на самі дані, правда?

  5. Чи будуть всі набори достатньої статистики мати мінімально достатню статистику?

Це матеріал, який я використовую, щоб спробувати зрозуміти тему: https://onlinecourses.science.psu.edu/stat414/node/283

З того, що я розумію, у нас є теорема факторизації, яка розділяє спільний розподіл на дві функції, але я не розумію, як ми можемо отримати достатню статистику після факторизації розподілу на наші функції.

  1. Питання Пуассона, наведене в цьому прикладі, мало чітку факторизацію, але потім було зазначено, що достатньою статистикою були середня вибірка та сума вибірки. Звідки ми знали, що це були достатньою статистикою, лише переглянувши форму першого рівняння?

  2. Як можливо проводити ті самі оцінки MLE, використовуючи достатню статистику, якщо друге рівняння результату факторизації іноді залежатиме від самих значень даних ? Наприклад, у випадку Пуассона друга функція залежала від зворотного добутку факторіалів даних, і ми б більше не мали цих даних!Xi

  3. Чому розмір вибірки не був би достатньою статистикою стосовно прикладу Пуассона на веб-сторінці ? Ми б зажадати реконструювати деякі частини першої функції , так чому це не є достатньою статистикою, а?nн


Лише швидке уточнююче запитання - з якого "кута" ви надходите в достатній мірі? Максимальна ймовірність? Байєсівський? Максимальна ентропія? Теорія вибірки? Щось ще?
ймовірністьлогічний

Я прийшов з точки зору MLE, вибачте, якщо моя публікація була не найбільшою, це мій перший пост на цьому форумі!
Кімчі

Відповіді:


12

Ви, мабуть, отримаєте користь, прочитавши про достатність у будь-якому підручнику з теоретичної статистики, де більшість із цих питань буде висвітлено докладно. Коротко ...

  1. Не обов'язково. Це особливі випадки: розподілів, де підтримка (діапазон значень, які можуть приймати дані) не залежить від невідомого параметра (параметрів), лише ті, що знаходяться в експонентному сімействі, мають достатню статистику такої ж розмірності, як кількість параметри. Отже, для оцінки форми та масштабу розподілу Вайбулла або розташування та масштабу логістичного розподілу з незалежних спостережень, статистика порядку (цілий набір спостережень, що не враховує їх послідовність) є мінімально достатньою - ви не можете зменшити її без втрати інформація про параметри. Якщо підтримка залежить від невідомого параметра (-ів), вона змінюється: для рівномірного розподілу на максимум вибірки достатньо для ;θ ( θ - 1 , θ + 1 )(0,θ)θ(θ1,θ+1) вибірки мінімум та максимум разом є достатніми.

  2. Я не знаю, що ви маєте на увазі під прямим листуванням; альтернатива, яку ви надаєте, здається справедливим способом описати достатню статистику.

  3. Так: тривіально даних у цілому достатньо. (Якщо ви чуєте, як хтось каже, що немає достатньої статистики, це означає, що немає низьких розмірів.)

  4. Так, це ідея. (Залишилося - розподіл даних, обумовлений достатньою статистикою), може бути використаний для перевірки припущення розподілу незалежно від невідомого параметра (параметрів).)

  5. Мабуть, ні, хоча я зібрав зустрічні приклади - це не дистрибуції, які ви, ймовірно, захочете використовувати на практиці. [Було б добре, якби хтось міг пояснити це, не надто сильно вникаючи в теорію вимірювань.]

У відповідь на подальші запитання ...

  1. Перший фактор, , залежить від лише через . Отже, будь -яка функція "один на один" є достатньою: , , тощо. λ x i x i x i x i / n( x i ) 2enλλxiλxixixixi/n(xi)2

  2. Другий фактор, , не залежить від &, тому не вплине на значення при якому є максимумом. Отримайте MLE & переконайтеся самі.λλf(x;λ)1x1!x2!xn!λλf(x;λ)

  3. Розмір вибірки є відомою постійною, а не реалізованою величиною випадкової величини , тому не вважається частиною достатньої статистики; те саме стосується відомих параметрів, окрім тих, про які потрібно зробити висновок.n

† У цьому випадку квадратування є одним на один, оскільки завжди позитивний.хi

‡ Коли - реалізоване значення випадкової величини , то воно буде частиною достатньої статистики, . Скажіть, ви обираєте вибірку розміром 10 або 100, кидаючи монету: нічого не говорить про значення але не впливає на те, наскільки точно ви можете її оцінити; в цьому випадку це називається допоміжним доповненням до , а умовивід може продовжуватися, обумовлюючи його реалізовану величину - фактично ігноруючи, що воно могло б вийти іншим.н N(хi,н)нθхi


1
Я хотів би побачити зустрічні приклади до 5. Я деякий час намагався довести протилежне з лемою Зорна, але воно руйнується в один момент. Але з того, що я зібрав, контрприклад повинен бути справді химерним. Чи є у вас якась опорна точка, де я міг би її знайти? Я не проти, щоб це було важким для теорії мір.
sjm.majewski

@ sjm.majewski: Леманн дає Пітчеру (1957), "Вживає заходів, які не допускають необхідних та достатніх статистичних даних або підполів", Енн. Математика. Статист. , 28 , с267-268; і Landers & Rogge (1973). "Про достатність та інваріантність", Енн. Статист. , 1 , p543-544.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.