Стандартна помилка підрахунку


14

У мене є набір даних про випадки випадків за сезоном рідкісної хвороби. Наприклад, скажімо, було 180 випадків навесні, 90 влітку, 45 восени і 210 взимку. Я борюся з тим, чи доречно приєднувати до цих цифр стандартні помилки. Цілі дослідження є інфекційними в тому сенсі, що ми шукаємо сезонну картину захворюваності, яка може повторитися в майбутньому. Таким чином, він інтуїтивно відчуває, що має бути можливим приєднати міру невизначеності до підсумків. Однак я не впевнений, як можна було б обчислити стандартну помилку в цьому випадку, оскільки ми маємо справу з простими підрахунками, а не, наприклад, засобами або пропорціями.

Нарешті, чи буде відповідь залежати від того, представляють дані сукупність випадків (кожен випадок, що коли-небудь траплявся) або випадкову вибірку? Якщо я не помиляюся, зазвичай не має сенсу подавати стандартні помилки зі статистикою населення, оскільки немає висновку.


Підрахунок - це просто ненормалізована пропорція, щоб можна було обчислити st. помилка пропорції і "ненормалізувати" її на підрахунок одиниць, якщо вона робить сенс для вас. Ви праві, що вул. помилка застосовна лише до вибірки. У популяції помилок немає.
ttnphns

Відповіді:


14

Населення - це (гіпотетична) сукупність усіх людей, які ризикують отримати захворювання; Зазвичай, це складається з усіх людей (або певної чітко визначеної підгрупи людей), що проживають у досліджуваній області. Важливо чітко визначити цю сукупність, оскільки вона є метою дослідження та всіх висновків, зроблених із даних.

Якщо випадки захворювання є незалежними (що може бути обґрунтованою гіпотезою, коли хвороба не передається між людьми і не викликається місцевими екологічними умовами), і вони рідкісні, тоді підрахунки повинні чітко слідувати розподілу Пуассона . Для цього розподілу хорошою оцінкою його стандартного відхилення є квадратний корінь підрахунку .

Використовуючи ці евристики, дані мали б пов'язані стандартні відхилення ( 13,4 , 9,5 , 6,7 , 14,5 ) , які ми можемо вважати попередньо як грубі оцінки помилок. Концептуально в кожному сезоні існує справжній гіпотетичний показник захворюваності - у кожного населення протягом цього сезону однаковий (низький) ризик зараження хворобою - але тому, що отримання цієї хвороби вважається випадковим.(180,90,45,210)(13.4,9.5,6.7,14.5)Події, фактична кількість захворювань, які спостерігаються протягом сезону, буде відрізнятися від справжнього показника. Квадратний корінь справжньої (але невідомої!) Швидкості кількісно визначає кількість варіацій, які можуть виникнути. Оскільки спостережувані підрахунки повинні бути близькими до справжніх показників, їх квадратні корені повинні бути розумними проксі-сервісами для квадратних коренів справжніх показників. Ці проксі - це саме те, що розуміється під "стандартною помилкою".

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

Це приблизно наскільки можна піти з цими обмеженими даними. Ці прості розрахунки показали, що:

  • Характеристика населення є критичною,

  • Квадратний корінь підрахунку є приблизною відправною точкою для оцінки його стандартної помилки,

  • Квадратний корінь повинен бути помножений (приблизно) на якийсь фактор, щоб відобразити відсутність незалежності у випадках захворювання (і цей фактор приблизно може бути пов'язаний з розмірами скупчень хвороб),

  • Різниця серед цих показників насамперед відображає коливання швидкості захворювання у часі, а не невизначеність (щодо основної інтенсивності Пуассона).


1
Дуже продумана, ретельна відповідь! Дуже дякую.
половина пройде

2

Мене не викликає пильність, коли я запитую: "Стандартна помилка чого?" Ви можете взяти середнє значення цих чотирьох фігур, і ви можете обчислити стандартну помилку цього значення. Ця статистика та результуючий довірчий інтервал мали б сенс, якби ви вважали, що ви виправдані, що трактуєте ці 4 сезони як репрезентативні для всіх наборів 4 сезонів, на які ви могли б узагальнити. Наскільки ви так обґрунтовані, дані, які ви мали, справді були б випадковою вибіркою сукупності. Вибірка, яку ви згадуєте, тягне за собою додатковий шар вибірки - ви можете назвати це кластерне вибіркове виділення, де кожен рік являє собою кластер.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.