Чому корисна завантажувальна програма?


13

Якщо все, що ви робите, - це повторний відбір з емпіричного розподілу, чому б не просто вивчити емпіричний розподіл? Наприклад, замість вивчення змінності за допомогою повторного відбору проб, чому б не просто кількісно оцінити мінливість від емпіричного розподілу?


6
" (У цьому сенсі) розподіл завантажувальної стрічки являє собою (приблизний) непараметричний, неінформативний задній розподіл для нашого параметра. Але такий розподіл завантажувального пристрою отримується безболісно - без необхідності формально визначати попередній та без необхідності вибірки з заднього розподілу. Отже ми можемо подумати про розповсюдження завантажувального тренажера як про "бідного чоловіка" Байєса заднього ". Елементи статистичного навчання ". Секція 8.4.
usεr11852

8
Як ми могли б оцінити невизначеність наших оцінок з емпіричного розподілу?
usεr11852

2
"В умовах легкої регулярності завантажувальна стрічка дає наближення до розподілу оцінювача або тестової статистики, яке є принаймні таким же точним, як наближення, отримане з теорії асимптотики першого порядку". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
Ви сперечаєтесь, не намагаючись зрозуміти. Повірте, ви не зрозуміли, що завантажувальний пристрій є нічим не протилежним до багатьох тисяч статистиків за чотири десятки років. Ви уважно не читали цитату. Я думаю, вам не вдалося зрозуміти ключову роль, яку відіграє випадковість у статистиці. Висловлювання на кшталт "Чому турбувати !!" стосовно "отримати розподіл це, звичайно, незвично. Якщо вам не здається важливим зрозуміти розподіл ваших оцінок, ви можете розглянути, чому існує поле статистики взагалі, і T(X)
передумайте

4
@ztyh Ви говорите: "Якщо прив язати кожен зразок до T ( X ), ви отримаєте розподіл T ( X ) ". Можливо, вам варто подумати над цим, як би ви віднесли одну точку X i до T ( X ) = ˉ X ? Або будь-яка функція T ( X 1 , X 2 , X n ) для цього питання. XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
кнрумсей

Відповіді:


18

Запуск завантаження (або інший перекомпонування) - це експериментальний метод оцінки розподілу статистики.

Це дуже простий і простий метод (він просто означає, що ви обчислюєте безліч випадкових варіантів вибіркових даних для отримання, оцінки, бажаного розподілу статистики).

Ви, швидше за все, використовуєте його, коли «теоретичний / аналітичний» вираз занадто важко отримати / обчислити (або, як каже Aksakal, іноді вони невідомі).

  • Приклад 1: Якщо ви робите аналіз pca і хочете порівняти результати з «оцінками відхилення власних значень», враховуючи гіпотезу про відсутність кореляції змінних.

    Ви можете багато разів зашифрувати дані та перерахувати власні значення pca таким чином, щоб отримати розподіл (заснований на випадкових тестах із зразковими даними) для власних значень.

    Зауважте, що нинішні практики дивляться на осадковий графік і застосовують правила, щоб «вирішити», чи є певне власне значення важливим / важливим чи ні.

  • Приклад 2: Ви зробили нелінійну регресію y ~ f (x), яка дала вам деяку оцінку згущення параметрів для функції f. Тепер ви хочете знати стандартну помилку для цих параметрів.

    Деякий простий погляд на залишки та лінійну алгебру, як в OLS, тут неможливий. Однак простий спосіб - обчислити одну і ту ж регресію багато разів із повторно скремтованими залишками / помилками, щоб отримати уявлення про те, як змінюватимуться параметри (враховуючи, що розподіл на термін помилки можна моделювати спостережуваними залишками).


Автор StackExchangeStrike


2
Я думаю, що ваш приклад - це не завантажувальна програма. Його просто вибірка з відомого нульового розподілу. Bootstrap - це те, де у вас є один зразок і повторно повторний вибір з цього зразка.
зтих

3
У своєму запитанні ви уявляєте собі обчислити дисперсію вибірки, що дійсно просто і не вимагає завантаження. У своєму прикладі я кажу про ситуацію, в якій у нас є цінність, яка виходить із вибірки. Тоді ми вже не можемо просто обчислити дисперсію, все ж хочемо знати, як вона змінюється. Шматуючи дані багато разів та повторно обчисливши власні значення pca, ви можете отримати такі розподільні (випадкові) дані, що слідкують за розподілом вашої вибірки. Якщо я не помиляюся , це буде називається самонастроювання.
Секст Емпірік

Гаразд, я бачу, де я нерозумів речі. Ваш приклад має сенс. Спасибі.
зтих

8

Ключовим є те, що завантажувальна програма насправді не полягає у з'ясуванні особливостей розподілу даних , а у з'ясуванні особливостей оцінювача, застосованого до даних.

Щось на зразок емпіричної функції розподілу дасть вам досить хорошу оцінку CDF, з якого отримані дані ... але, відокремлюючи, це не говорить вам по суті нічого про те, наскільки надійними будуть оцінювачі, які ми будуємо з цих даних. На це питання відповіли за допомогою bootstrap.


1
Використання (непараметричного) завантажувального інструменту для пошуку "розподілу даних" було б сміхом: воно просто придумує емпіричну функцію розподілу, яка саме є тим набором даних, з якого починав аналітик. Нагадує мені алгебру коледжу, коли я "вирішував би для X" і знаходив "X = X".
АдамО

3

Якщо ви точно знаєте, що є базовим розподілом, то вам не потрібно його вивчати. Іноді в природничих науках ви точно знаєте розподіл.

Якщо ви знаєте тип розподілу, то вам потрібно лише оцінити його параметри та вивчити його в тому сенсі, який ви мали на увазі. Наприклад, колись ви апріорно знаєте, що базовий розподіл є нормальним. У деяких випадках ви навіть знаєте, що це означає. Отже, для нормального єдине, що залишається з’ясувати - це стандартне відхилення. Ви отримуєте вибіркове стандартне відхилення від вибірки, і вуаля, ви отримуєте розподіл для вивчення.

Якщо ви не знаєте, що таке розподіл, але ви думаєте, що це один із кількох у списку, тоді ви можете спробувати пристосувати їх до даних та вибрати той, який найкраще підходить. ТІЛЬКО ви вивчаєте цей розподіл.

ЗБІРНО, часто ви не знаєте тип дистрибуції, з яким маєте справу. І у вас немає причин вважати, що він належить до одного з 20 дистрибутивів, до яких R може відповідати вашим даним. Що ти збираєшся робити? Гаразд, ти дивишся на середні та стандартні відхилення, приємно. Але що робити, якщо він дуже перекошений? Що робити, якщо його куртоз дуже великий? і так далі. Вам справді потрібно знати всі моменти розподілу, щоб знати , і вивчити це. Отже, у цьому випадку корисна непараметрична завантажувальна програма. Ви не припускаєте багато, і простий зразок з нього, а потім вивчити його моменти та інші властивості.

Хоча непараметричне завантаження не є магічним інструментом, у нього є проблеми. Наприклад, він може бути упередженим. Я думаю, що параметричне завантаження є неупередженим


1
Я думаю, навіть якщо ви не знали справжнього розподілу, багато моментів легко обчислити. Тому я думаю, що проблема полягає не в тому, щоб не знати тип дистрибуції, з яким ви маєте справу. Скоріше йдеться про те, яку статистику ви намагаєтеся вивчити. Деякі статистичні дані можуть бути важкими для обчислення, і лише тоді корисний завантажувальний пристрій.
зтих

Як і в коментарі до питання до нас11852, насправді у мене є сумніви щодо переваг щодо обчислювальної статистики ...
ztyh

ln(x3+x)

1
xzf(x,z)x,z

1
fxzf(x,z)
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.