Чому взагалі вважають вибірку без заміни в практичному застосуванні?


13

Відбір проб із заміною має дві переваги перед вибіркою без заміни, як я це бачу:

1) Вам не потрібно турбуватися про обмежене виправлення популяції.

2) Є ймовірність, що елементи з популяції малюються кілька разів - тоді ви можете переробити вимірювання та заощадити час.

Звичайно, з академічного POV треба досліджувати обидва методи. Але з практичного POV я не розумію, чому можна було б розглянути вибірку без заміни, враховуючи переваги заміни.

Але я початківець у статистиці, тому може бути багато вагомих причин, чому без заміни може стати найкращим вибором - принаймні, для конкретних випадків використання. Будь ласка, відключіть мене!


3
Підказка: Поміркуйте, який ефект від застосування корекції кінцевої сукупності та чому це може бути вигідним. (Також зауважте, що (1) суми майже завжди є меншими труднощами та витратами, ніж збирання даних; (2) якщо ви можете розрізнити людей, ви не повинні "переробляти" вимірювання, а базувати висновки лише на окремих осіб.)
Скортчі - Відновіть Моніку

Чесно кажучи, я насправді не розумію жодного з ваших тверджень. FPC компенсує чисельні наслідки недостатньої незалежності вимірювань. Але я не знаю, чому це вигідно. (1) як це стосується мого питання? (2) Чому "не слід" повторно вимірювати вимірювання? Хіба це не є прямим логічним наслідком того, що випадково намалювали двічі один і той же елемент під час вибірки з заміною?
Раффаель

Відповіді:


13

Розгортається на відповідь @Scortchi. . .

Припустимо, у населення було 5 членів, і у вас є бюджет для вибірки 5 осіб. Вас цікавить середнє значення популяції змінної X, характерне для особин цієї популяції. Ви можете зробити це так, як і випадковим чином провести заміну. Середня дисперсія середнього зразка буде V (X) / 5.

З іншого боку, припустимо, ви відібрали п'ять осіб без заміни. Тоді відхилення середнього значення вибірки дорівнює 0. Ви відібрали всю сукупність, кожну особину рівно один раз, тому немає різниці між "середньою вибіркою" та "середньою сукупністю". Вони те саме.

У реальному світі вам слід стрибати від радості кожного разу, коли вам доведеться робити обмежене виправлення сукупності, оскільки (барабанний…) це робить дисперсію вашого оцінювача зниженою, без того, щоб збирати більше даних. Майже нічого цього не робить. Це як магія: добра магія.

Якщо сказати абсолютно те саме в математиці (зверніть увагу на <, і припустимо, що розмір вибірки більше 1):

finite sample correction=NnN1<N1N1=1

Виправлення <1 означає, що застосування виправлення приводить дисперсію донизу, тому що ви застосовуєте виправлення, помноживши його на дисперсію. Варіант ВНИЗ == хороший.

Рухаючись у зворотному напрямку, повністю від математики, подумайте про те, що ви просите. Якщо ви хочете дізнатися про населення та зможете взяти з нього 5 людей, чи здається вам ймовірним, що ви дізнаєтесь більше, скориставшись шансом відібрати той самий хлопець у 5 разів, чи здається більш ймовірним, що ви дізнаєтесь більше, забезпечивши що ви зразок 5 різних хлопців?

Справа в реальному світі майже протилежна тому, що ви говорите. Майже ніколи не робиш вибірки із заміною --- це лише тоді, коли ти робиш спеціальні речі, такі як завантаження. У такому випадку ви насправді намагаєтесь викрутити оцінювач і надати йому "занадто велику" дисперсію.


Під "завантажувальним завантаженням" я розумію, використовуючи параметр вибірки замість параметра сукупності (який ви насправді мали б використовувати) для оцінки параметра сукупності. Чому б вам було цікаво "накрутити" оцінювач і надати йому "занадто велику" дисперсію?
Raffael

1
@ Яаффаел Я говорю про непараметричне завантаження. Ви берете свій зразок (скажімо, розмір 100), повторно відбираєте його з заміною (100 разів даючи зразок завантажувальної програми розміром 100), а потім перераховуєте свій оцінювач, що цікавить. Ви ставитеся до вибірки як до іграшкової сукупності, імітуєте малювання зразка з нього, обчислюєте оцінювач. Якщо ви взяли вибірку з популяції іграшок без заміни, ви точно б скопіювали популяцію іграшок у вибірку, отримавши початкову оцінку як нову оцінку (тобто дисперсія = 0). Щоб цього уникнути, тому ви пробите з заміною.
Білл

5

Точність оцінок зазвичай вища для відбору проб без заміни порівняно з вибіркою із заміною.

Наприклад, можна вибрати лише один елемент разів, коли вибірка проводиться із заміною в крайньому випадку. Це може призвести до дуже неточної оцінки параметру сукупності, що становить інтерес. Така ситуація неможлива при відборі проб без заміни. Таким чином, дисперсія зазвичай нижча для оцінок, отриманих від вибірки без заміни.n


2

Я не думаю, що відповіді тут є абсолютно адекватними, і вони, здається, стверджують про обмежувальний випадок, коли ваш обсяг даних дуже низький.

Що стосується достатньо великого зразка, це зовсім не хвилює, особливо з багатьма перезавантаженнями завантажувальних програм (~ 1000). Якщо я вибірка з істинного розподілу набору даних розміру 10000, і я дискретизація з заміною 1000 разів, то посилення дисперсії I (на відміну від дисперсії я б отримати не роблячи НЕ замін) зовсім небагато.

Я б сказав, що більш точна відповідь така: переустановка без заміни є важливою при оцінці достовірності статистики другого порядку . Наприклад, якщо я використовую завантажувальний інструмент для оцінки невизначеності, яку я маю при вимірюванні дисперсії. Малюнок із заміною такої кількості може штучно змістити відновлені дисперсії на низькому рівні.

Конкретний приклад з реальними даними, якщо ви їх знаєте, дивіться у цьому документі https://arxiv.org/abs/1612.02827

він коротко обговорює ваше запитання на сторінці 10


0

У мене результат, який розглядає без заміни практично як із заміною і усуває всі труднощі. Зауважте, що із заміною розрахунки набагато простіше. Отже, якщо ймовірність передбачає p і q, ймовірність успіху та невдачі, у випадку заміни відповідна ймовірність у випадку заміни виходить просто із заміною p ^ aq ^ b на (Nab) C (Ra) на будь-які a і b, де N, R - загальна кількість кульок і кількість білих куль. Пам'ятайте, що p трактується як R / N.

К.Баласубраманіан


стався упущення. (Nab) C (Ra) / (NCR) - правильний вираз. Наприклад, середнє np стає n (N-1-0) / (R-1) / NCR. ви можете перевірити будь-який такий результат.
Кріш Баласубраманіан
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.