Розмір завантажувальних зразків


9

Я дізнаюсь про завантажувальний процес як про засіб оцінки дисперсії вибіркової статистики. У мене є одне основне сумнів.

Цитуючи з http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf :

• Скільки спостережень слід повторно проаналізувати? Гарна пропозиція - оригінальний розмір зразка.

Як ми можемо повторно проаналізувати стільки спостережень, скільки в оригінальній вибірці?
Якщо у мене розмір вибірки 100, і я намагаюся оцінити дисперсію середнього. Як я можу отримати кілька зразків завантажувальної програми розміром 100 із загального розміру вибірки 100? У цьому випадку можливий лише 1 зразок завантажувальної програми, який був би еквівалентний початковому зразку?

Я, очевидно, нерозумію щось дуже базове. Я розумію , що число з ідеальних зразків бутстраповскіх завжди нескінченно, і визначити кількість вибірок , необхідних для початкового завантаження моїх даних я б тест на відповідність зберігаючи свою необхідну точність у вигляді.
Але я дуже розгублений щодо того, яким повинен бути розмір кожного окремого зразка завантажувального пристрою .


7
Верх с. 3, а ілюстрації там чітко і чітко визначають, що перекомпонування відбувається із заміною.
whuber

Але якщо розмір моєї вибірки завантажувача збігається із загальною кількістю спостережень, що я замінюю?
користувач1265125

Спрощений приклад - якщо я маю 4,1,3,7,5 як набір зразків. Як я можу створити кілька зразків завантажувальної програми розміром 5? Єдиний зразок завантажувального пристрою розміром 5 буде 4,1,3,7,5, тобто початковий набір зразків.
користувач1265125

1
О, зачекайте, я зрозумів - "• Для імітації розподілу вибірки ми можемо просто взяти повторні випадкові вибірки з цієї" сукупності ", що складається з багатьох копій вибірки"
користувач1265125

Відповіді:


16

Бутстрап проводиться шляхом відбору проб із заміною . Здається, що термін "із заміною" для вас незрозумілий. Як зазначає В.Бубер , ілюстрація вибірки із заміною наведена на с. 3 статті, на яку ви посилаєтесь (відтворено нижче).

Ілюстрація вибірки із заміною

(джерело: http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf )

Загальна ідея відбору проб із заміною полягає в тому, що будь-який випадок може бути відібраний кілька разів (зелений мармур на першому зображенні вище; синій та фіолетовий мармур на останньому малюнку). Якщо ви хочете уявити собі цей процес, придумайте миску, наповнену різнокольоровим мармуром. Скажіть, що ви хочете намалювати деяку кількість мармуру з цієї миски. Якщо ви взяли пробу без заміни, ви просто взяли б мармур з миски і відклали відібрані. Якщо ви взяли пробу із заміною, то ви б відбирали мармур по одному, виймаючи один мармур з чаші, підписуючи його колір у своєму блокноті, а потім повертаючи його назаддо миски. Тож при відборі проб із заміною одного і того ж мармуру можна відбирати проби кілька разів.

Тож при відборі проб без заміни можна проводити вибіркуn мармур з миски, що містить nмармуру, тоді як у випадку відбору проб із заміною ви можете пробувати будь-яку кількість мармуру (навіть більше, ніж тодіn) від кінцевої сукупності. Якщо ви взяли вибіркуn з nмармур без заміни ви отримали б точно такий же зразок, але в перетасованому порядку. Якщо ви взяли вибіркуn з nмармур із заміною, кожен раз, можливо, ви можете спробувати іншу комбінацію мармуру.

Існує способів відбору проб без заміни випадків із сукупності розмірів та способів відбору проб із заміною. Якщо ви хочете прочитати більше про математику, яка знаходиться за ним, ви можете перевірити 2.1. Розділ комбінаторики Введення в Інтернет-посібник " Ймовірність" від Хоссейна Пішро-Ніка. На сторінці WolframMathWorld також є зручна шпаргалка .(nk)kn(n+k1k)


0

Скільки спостережень слід повторно відібрати? Гарна пропозиція - оригінальний розмір зразка.

Якщо вихідний розмір вибірки занадто великий і ви не хочете / не можете тренувати модель на повному наборі даних, "хороша пропозиція" не настільки хороша.

PS: Я хотів додати це як коментар до питання, але мені не дозволяється додавати коментарі ...


1
Чому ви хочете додати цю пропозицію? Якщо це пов’язано із занадто великими наборами даних для регулярних обчислювальних зусиль, це є актуальною практичною проблемою, але це насправді не стосується теорії завантажувальної програми, яку тут поставили під сумнів. Крім того, мова йшла про "оцінку дисперсії статистичної вибірки". Це насправді пов'язане із загальним навчанням моделі? (Примітка. Щоб не бути грубим, я розумію, що ви ще не можете розміщувати коментарі, але це не позбавляє вас відповіді на відповідь під час публікації як такої. Ви повинні бути більш чіткими, АБО розміщувати власне запитання)
IWS
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.