Хоча завантажувальна програма - чи може хтось надати просте пояснення, щоб розпочати мене?


9

Незважаючи на кілька спроб читання про завантажувальну машину, я, здається, завжди потрапляв у цегляну стіну. Цікаво, чи може хтось дати досить нетехнічне визначення завантажувальної програми?

Я знаю, що на цьому форумі неможливо надати достатньо деталей, щоб я міг його повністю зрозуміти, але легкий поштовх у правильному напрямку з головною метою та механізмом завантаження буде дуже вдячний! Дякую.

Відповіді:


8

Запис у Вікіпедії про завантажувальний процес насправді дуже хороший:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Найбільш поширена причина завантажувального завантаження - це коли невідома форма базового розподілу, з якого береться зразок. Традиційно статистики припускають нормальний розподіл (з дуже поважних причин, пов'язаних із теоремою про центральну межу), але статистичні дані (такі як стандартне відхилення, довірчі інтервали, обчислення потужності тощо), розраховані за допомогою звичайної теорії розподілу, є строго справедливими лише в тому випадку, коли базовий розподіл населення є нормальний.

Шляхом повторного повторного відбору самого зразка завантажувальний процес дає змогу оцінювати незалежність розподілу. Традиційно кожен "повторний вибір" вихідного зразка випадковим чином вибирає ту саму кількість спостережень, що і в вихідній вибірці. Однак вони вибираються із заміною. Якщо у вибірці є N спостережень, кожен повторний зразок завантажувальної програми матиме N спостережень, при цьому багато з початкових зразків повторюються, а багато виключаються.

Параметр, що цікавить (наприклад, коефіцієнт шансів тощо), потім може бути оцінений з кожного завантаженого зразка. Повторення завантажувального приводу 1000 разів дозволяє оцінити "медіану" та 95% довірчий інтервал на статистиці (наприклад, коефіцієнт шансів), вибравши 2,5-й, 50-й та 97,5-й перцентилі.


8

Нещодавно американський вчений опублікував чудову статтю Косма Шалізі про завантажувальну машину, яка досить легко читається і дає вам основні аспекти, щоб зрозуміти концепцію.


7

Дуже широко: інтуїція, а також походження назви ("підтягування завантажувальних пристроїв") випливають із зауваження, що при використанні властивостей вибірки робити висновки про сукупність ("зворотна" проблема статистики висновок), ми очікуємо помилки. Щоб дізнатись природу цієї помилки, розгляньте сам зразок як сукупність людей і вивчіть, як працює ваша інфекційна процедура, коли ви берете з неї зразки . Це проблема «вперед»: ви знаєте все про вашому ственном зразку ква-населення і не потрібно нічого про це здогадуватися. Ваше дослідження підкаже (а) ступінь упередження вашої інфекційної процедури та (б) розмір та характер статистичної помилки вашої процедури. Отже, використовуйте цю інформацію для коригування початкових оцінок. У багатьох (але, безумовно, не всіх) ситуаціях скоригований ухил асимптотично набагато нижчий.

Одне розуміння, що надається цим схематичним описом, полягає в тому, що завантажувальний процес не вимагає моделювання або повторного підсистеми: вони просто є універсальними, обчислювально простежуваними способами вивчення будь-якого виду статистичної процедури, коли населення відоме. Існує безліч оцінок завантажувальної програми, які можна обчислити математично.

Ця відповідь багато в чому зобов’язана книзі Пітера Холла "Розширення завантаження та Еджворт" (Springer 1992), особливо його опису "Основного принципу" завантаження.


Мені подобається такий "оригінальний" підхід (Wrt. Інші записи). Тим не менш, мені завжди важко пояснити, чому завантажувальна програма працює на практиці ...
chl

4

Вікі про завантаження дає наступний опис:

Запуск завантажень дозволяє зібрати безліч альтернативних версій єдиної статистики, які зазвичай обчислюються з однієї вибірки. Наприклад, припустимо, що нас цікавить зріст людей у ​​всьому світі. Оскільки ми не можемо виміряти всю чисельність населення, ми вибираємо лише невелику її частину. З цього зразка можна отримати лише одне значення статистики, тобто одне середнє значення, або одне стандартне відхилення тощо, і тому ми не бачимо, наскільки ця статистика змінюється. Під час використання завантажувального завантаження ми випадково витягуємо новий зразок n висот із N вибіркових даних, де кожну людину можна обрати не більше t разів. Роблячи це кілька разів, ми створюємо велику кількість наборів даних, які ми могли б бачити і обчислюємо статистику для кожного з цих наборів даних. Таким чином, ми отримуємо оцінку розподілу статистики.

Я надам більш детальну інформацію, якщо ви зможете уточнити, яку частину описаного вище ви не розумієте.


4

Мені подобається думати про це так: Якщо ви отримаєте випадковий вибірковий набір даних з популяції, то, імовірно, цей зразок матиме характеристики, які приблизно відповідають характеристикам вихідної сукупності. Отже, якщо вам цікаво отримати інтервали довіри щодо певної особливості розподілу, його скасованості, наприклад, ви можете трактувати зразок як псевдопопуляцію, з якої ви можете отримати безліч наборів випадкових псевдо-зразків, обчислюючи значення ознаки, що цікавить кожного. Припущення, що оригінальний зразок приблизно відповідає сукупності, також означає, що ви можете отримати псевдо-зразки шляхом вибірки з псевдонаселення "із заміною" (наприклад, ви відбираєте значення, записуєте його, а потім повертаєте назад; таким чином, кожне значення є шанс його спостерігати кілька разів.).


3

Bootstrap - це, по суті, симуляція повторюваного експерименту; скажімо, у вас є ящик з кульками, який хочете отримати середній розмір кулі - тому ви намалюєте деякі з них, відміряйте і приймете середнє значення. Тепер ви хочете повторити це, щоб отримати розподіл, наприклад, щоб отримати стандартне відхилення - але ви дізналися, що хтось вкрав коробку.
Що зараз можна зробити - це використовувати те, що у вас є, - це одна серія вимірювань. Ідея полягає в тому, щоб помістити кулі в новий ящик і імітувати оригінальний експеримент, намалювавши однакову кількість кульок із заміною - обидва мати однаковий розмір вибірки та певну мінливість. Тепер це можна повторити багато разів, щоб отримати ряд засобів, які можна нарешті використати для наближення середнього розподілу.


3

У цьому полягає суть завантаження даних: взяття різних зразків ваших даних, отримання статистики для кожного зразка (наприклад, середня, медіана, кореляція, коефіцієнт регресії та ін.) Та використання змінності в статистиці для всіх зразків, щоб вказати щось про стандартні інтервали помилок і достовірності для статистики. - завантажувальний і завантажувальний пакет у R

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.