Динамічний розрахунок кількості проб, необхідних для оцінки середнього


9

Я намагаюся оцінити середнє значення більш-менш гауссового розподілу за допомогою вибірки. Я не маю попередніх знань про його значення або його відмінність. Кожен зразок є дорогим для отримання. Як я динамічно вирішую, скільки зразків потрібно для отримання певного рівня впевненості / точності? Як варіант я дізнаюся, коли я можу припинити брати зразки?

Усі відповіді на подібні запитання, які я можу знайти, начебто передбачають певні знання про дисперсію, але мені потрібно це відкрити і на цьому шляху. Інші спрямовані на проведення опитувань, і мені (початківцю, що я є незрозумілим) мені незрозуміло, як це узагальнюється - моя середня величина не відповідає [0,1] тощо.

Я думаю, що це, мабуть, просте запитання з добре відомою відповіддю, але мій Google-фу не піддається мені. Навіть просто сказати мені, що шукати, було б корисно.


Будь-яка причина, чому ви позначили це як CW? Питання здається достатньо конкретним, щоб дозволити отримати одну правильну відповідь, і тому він не повинен бути CW.

1
@josh, це добре. Мені було просто цікаво про ваш вибір.

1
Google "адаптивне вибіркове" та "послідовне вибіркове". Якщо ви все ще зациклювались, включіть "Wald" як ключове слово, а потім працюйте історично вперед (тобто перегляньте статті, які посилаються на роботу Вальда щодо послідовного вибіркового вибору, а потім подивіться документи, на які посилаються на них тощо).
whuber

1
@Robby McKilliam: Але які дані ви використовуєте? Це питання виникає до того, як будуть зібрані будь-які дані. Якщо ви збираєте значення по одному та обчислюєте ІП після додавання кожної нової до набору даних, ви не можете використовувати стандартні формули для інтервалів через коррельовані численні порівняння, які ви робите. Таким чином, вам потрібне правило зупинки, яке оптимізує суму статистичного ризику вашого оцінювача та витрат на збір кожної додаткової вибірки.
whuber

1
@whuber дякую! Я все ще перетравлюю матеріал, але думаю, що саме це я шукаю. Якби це відповідь, я би прийняв її ...
Джош Блічер Снайдер,

Відповіді:


2

Потрібно шукати "Адазійські конструкції Баєса". Основна ідея така:

  1. Ви ініціалізуєте пріоритет для параметрів, що цікавлять.

    Перед будь-яким збором даних ваші пріори були б розсіяними. Оскільки додаткові дані надходять у вас, ви встановлюєте попереднє перед тим, як бути заднім, яке відповідає "попередньому + даним до цього моменту".

  2. Збір даних.

  3. Обчислити задній на основі даних + пріори. Заднє потім використовується як попереднє на кроці 1, якщо ви фактично збираєте додаткові дані.

  4. Оцініть, чи виконуються ваші критерії зупинки

    Критерії зупинки можуть включати щось на кшталт 95% достовірного інтервалу, який не повинен перевищувати одиниць для параметрів, що цікавлять. Ви також можете мати більше формальних функцій втрат, пов'язаних з параметрами, що цікавлять, та обчислити очікувані втрати щодо заднього розподілу для параметра, що цікавить.±ϵ

Потім ви повторюєте кроки 1, 2 і 3, поки не будуть виконані ваші критерії зупинки від кроку 4.


0

Як правило, ви хочете, щоб принаймні 30 посилалися на центральну граничну теорему (хоча це дещо довільно). На відміну від опитувань тощо, які моделюються за допомогою біноміального розподілу, ви не можете заздалегідь визначити розмір вибірки, що гарантує рівень точності з Гауссовим процесом - це залежить від того, які залишки ви отримаєте, які визначають стандартну помилку.

Слід зазначити, що якщо у вас є чітка стратегія вибірки, ви можете отримати набагато більш точні результати, ніж при набагато більшому розмірі вибірки при поганій стратегії.


3
Чому потрібно звертатися до CLT під час вибірки з відомого (або припущеного) гауссового розподілу? Середнє значення навіть зразка одного буде нормально розподілене!
whuber

Гарна думка! Не було RTQ належним чином.
Джеймс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.