Я викладаю собі якусь статистику для розваги і в мене є певна плутанина щодо достатньої статистики . Я випишу свої плутанини у форматі списку:
Якщо розподіл має параметрів, то чи матиме він достатньо статистичних даних?n
Чи існує якась пряма відповідність між достатньою статистикою та параметрами? Або достатня статистика просто служить пулом "інформації", щоб ми могли відтворити налаштування, щоб ми могли обчислити однакові оцінки параметрів базового розподілу.
Чи всі розподіли мають достатню статистику? тобто. чи може теорема факторизації колись вийти з ладу?
Використовуючи наш зразок даних, ми припускаємо розподіл, з якого ці дані найімовірніше, і тоді можна обчислити оцінки (наприклад, MLE) для параметрів для розподілу. Достатня статистика - це спосіб розрахувати однакові оцінки параметрів, не покладаючись на самі дані, правда?
Чи будуть всі набори достатньої статистики мати мінімально достатню статистику?
Це матеріал, який я використовую, щоб спробувати зрозуміти тему: https://onlinecourses.science.psu.edu/stat414/node/283
З того, що я розумію, у нас є теорема факторизації, яка розділяє спільний розподіл на дві функції, але я не розумію, як ми можемо отримати достатню статистику після факторизації розподілу на наші функції.
Питання Пуассона, наведене в цьому прикладі, мало чітку факторизацію, але потім було зазначено, що достатньою статистикою були середня вибірка та сума вибірки. Звідки ми знали, що це були достатньою статистикою, лише переглянувши форму першого рівняння?
Як можливо проводити ті самі оцінки MLE, використовуючи достатню статистику, якщо друге рівняння результату факторизації іноді залежатиме від самих значень даних ? Наприклад, у випадку Пуассона друга функція залежала від зворотного добутку факторіалів даних, і ми б більше не мали цих даних!
Чому розмір вибірки не був би достатньою статистикою стосовно прикладу Пуассона на веб-сторінці ? Ми б зажадати реконструювати деякі частини першої функції , так чому це не є достатньою статистикою, а?