Запитання щодо параметричної та непараметричної завантажувальної програми

14

Я читаю розділ "Часта статистика" з книги Кевіна Мерфі " Машинне навчання - ймовірнісна перспектива ". Розділ про завантажувальну версію зазначає:

Запуск завантажувача - це проста технологія Монте-Карло для наближення розподілу вибірки. Це особливо корисно у випадках, коли оцінювач є складною функцією справжніх параметрів.

Ідея проста. Якби ми знали справжні параметри $θ^∗$ , ми могли б генерувати багато (скажімо ) підроблених наборів даних, кожного розміру , з істинного розподілу, , для . Тоді ми могли б обчислити наш оцінювач з кожного зразка і використовувати емпіричний розподіл отриманих зразків як нашу оцінку розподілу вибірки. Оскільки невідоме, ідея параметричного завантажувального пристрою полягає у створенні зразків, використовуючи замість . $S$ $N$ $x_i^s \sim p (·| θ^∗ )$ $s = 1 : S, i = 1 : N$ $\hat{\theta^s}=f (x^s_{1:N})$ $\theta$ $\hat{\theta}(D)$

Альтернативою, яка називається непараметрична завантажувальна програма , є вибір вибір (із заміною) з вихідних даних , а потім обчислення індукованого розподілу, як раніше. Деякі методи прискорення завантажувальної програми при застосуванні до масивних наборів даних обговорюються в (Kleiner et al. 2011). $x^s_i$ $D$

1 . У тексті сказано:

Якби ми знали справжні параметри ..., ми могли б обчислити наш оцінювач з кожного зразка, ... $\theta^*$ $\hat{\theta^s}$

але навіщо мені використовувати оцінювач кожного зразка, якщо я вже знаю справжні параметри ? $\theta^*$

2 . Крім того, яка тут різниця між емпіричним розподілом та розподілом вибірки?
3 . Нарешті, я не зовсім розумію різницю між параметричною та непараметричною завантажувальною програмою від цього тексту. Вони обидві випливають з набору спостережень , але в чому саме різниця? $\theta$ $D$

bootstrap frequentist

— Амеліо Васкес-Рейна
джерело

14

Відповідь Міура не зовсім точна, тому я відповідаю на це старе питання для нащадків:

(2). Це дуже різні речі. Емпіричний cdf - це оцінка CDF (розповсюдження), яка генерувала дані. Саме дискретний CDF призначає вірогідність кожній спостереженій точці даних, , для кожного . Цей оцінювач сходиться до справжнього cdf: майже точно для кожного (насправді рівномірно). $1/n$ $\hat{F}(x) = \frac{1}{n}\sum_{i=1}^n I(X_i\leq x)$ $x$ $\hat{F}(x) \to F(x) = P(X_i\leq x)$ $x$

Розподіл вибірки статистичної замість цього є розподілом тієї статистики, яку ви очікували б побачити при повторному експерименті. Тобто ви експериментуєте один раз і збираєте дані . - функція ваших даних: . Тепер, припустимо, ви повторите експеримент і збираєте дані . Перерахунок T на новий зразок дає . Якщо ми зібрали 100 зразків ми мали б 100 оцінок . Ці спостереження утворюють вибірковий розподіл $T$ ${X_1,\ldots,X_n}$ $T$ $T = T(X_1,\ldots,X_n)$ ${X'_1,\ldots,X'_n}$ $T' = T({X'_1,\ldots,X'_n})$ $T$ $T$ $T$ . Це справжній розподіл. Оскільки кількість експериментів йде до нескінченності, його середнє значення сходить до а його дисперсія до . $E(T)$ $Var(T)$

Загалом, звичайно , не повторювати експерименти , як це, ми тільки коли - небудь один екземпляр . З'ясування, що дисперсія від одного спостереження дуже важко , якщо ви не знаєте , основний вірогідну функцію апріорно. Бутстрапірованіе спосіб оцінити , що розподіл вибірки шляхом штучного запуску «нові експерименти» , на якому для розрахунку нових екземплярів . Кожен новий зразок - це фактично лише повторний вибір із початкових даних. Те, що це дає вам більше інформації, ніж ви маєте в оригінальних даних, загадкове та абсолютно дивовижне. $T$ $T$ $T$ $T$ $T$

(1). Ви маєте рацію - ви б цього не зробили. Автор намагається мотивувати параметричний завантажувальний засіб, описуючи його як "те, що ви зробили б, якби знали розподіл", але замінивши дуже хороший оцінювач функції розподілу - емпіричний cdf.

Наприклад, припустимо, ви знаєте, що ваша тестова статистика зазвичай розподіляється із середнім нулем, дисперсією. Як би ви оцінили розподіл вибірки ? Отже, оскільки ви знаєте розподіл, нерозумний і надмірний спосіб оцінювання розподілу вибірки - це використання R для отримання 10 000 або близько стандартних звичайних випадкових величин, а потім взяти середнє значення та дисперсію вибірки та використовувати їх як наші оцінки середнього та дисперсія розподілу вибірки . $T$ $T$ $T$

Якщо ми апріорі не знаємо параметрів , але ми знаємо, що він зазвичай розподіляється, то, що ми можемо зробити замість цього, є генерувати 10 000 або близько зразків із емпіричного cdf, обчислювати на кожному з них, а потім брати середнє значення вибірки і дисперсія з них 10000 с, і використовувати їх як наші оцінки очікуваного значення і дисперсії . Оскільки емпіричний cdf є хорошим оцінником справжнього cdf, параметри вибірки повинні збігатися з справжніми параметрами. Це параметрична завантажувальна програма: ви розміщуєте модель на статистиці, яку хочете оцінити. Модель індексується параметром, наприклад , який ви оцінюєте за повторної вибірки з ecdf. $T$ $T$ $T$ $T$ $(\mu, \sigma)$

(3). Непараметрична завантажувальна стрічка навіть не вимагає, щоб ви апріорно знали, що нормально розподілений. Натомість ви просто малюєте повторні зразки з ecdf та обчислюєте на кожному. Після того як ви намалювали 10 000 або близько зразків і обчислили 10000 s, ви можете побудувати гістограму своїх оцінок. Це візуалізація розподілу вибірки $T$ $T$ $T$ $T$ . Непараметричний завантажувальний пристрій не скаже вам, що розподіл вибірки є нормальним, або гамма тощо, але дозволяє оцінити розподіл вибірки (як правило) так точно, як це потрібно. Це робить менше припущень і надає менше інформації, ніж параметрична завантажувальна програма. Він менш точний, коли параметричне припущення є істинним, але більш точний, коли він хибний. Який із них ви використовуєте в кожній ситуації, з якою ви стикаєтесь, повністю залежить від контексту. Справді, більшість людей знайомі з непараметричним завантажувальним рядком, але часто слабке параметричне припущення робить абсолютно нерозбірливою модель, придатну до оцінки, що є прекрасною.

— гість47
джерело

1

Мене бентежить ваш опис параметричної завантажувальної програми "те, що ми можемо зробити замість цього, генерує 10 000 або близько зразків із емпіричного cdf" Моє розуміння параметричного завантажувального пристрою полягає в тому, що ви взяли вибірку з моделі, підходящої до даних. Саме так описується оригінальна цитата з книги Мерфі. Я можу помилково читати, але вибірка з емпіричного CDF даних буде безпосередньо вибіркою точок даних, що було б стандартним завантажувальним рядком, ні?

— користувач20160

@ user20160 ви неправильно трактуєте відповідь "Натомість": він описує непараметричний завантажувальний засіб, а не параметричний.

— daknowles

4

Я дуже ціную зусилля, які доклав гість47, але я не зовсім згоден з його відповіддю в деяких незначних аспектах. Я б не ставив прямо своїх розбіжностей, а скоріше відобразив би їх у цій відповіді.

У багатьох випадках буває зайвим обчислити коли ми вже знаємо справжній базовий параметр . Однак це все-таки корисно, коли ми хочемо подивитися на точність та точність при оцінці . Крім того, перший абзац у цитованому уривку полегшить вам розуміння поняття "параметрична завантажувальна програма", яке я торкнуся незабаром після. $\hat\theta s$ $\theta*$ $\hat\theta s$ $\theta*$
Guest47 дає хорошу відповідь. Більше не потрібно докладно розробляти.
У параметричній завантажувальній програмі ваші спостережувані дані D. Ви придумали параметричну модель для відповідності даним та використовуєте оцінювачі (що є функцією даних D) для справжніх параметрів . Потім ви генеруєте тисячі наборів даних із параметричної моделі за допомогою та оцінюєте для цих моделей. У непараметричному завантажувальному завантаженні ви безпосередньо використовуєте D, вибірку (у тисячі разів) саме з D, замість генерованих даних. $\hat\theta$ $\theta*$ $\hat\theta$ $\hat\theta s$

— QINGYUAN FENG
джерело

2

Я не фахівець, але для чого це варто:

Тому що ви зацікавлені в розподілі вибірки, про що говорилося в першому реченні вашої цитати.
Емпіричний розподіл - це розподіл, який ви бачите у вашій кінцевій кількості зразків. Розподіл вибірки - це те, що ви б побачили, якби ви взяли нескінченну кількість проб.

Я не можу відповісти 3. Я завжди розумів, що тут описано як непараметричне завантажувальне слово як "the" завантажувальний засіб.

Якщо ви ще не повністю зрозуміли концепцію розподілу вибірки, тут є справді приємна нитка, яка містить дуже показовий R-код.

— міура
джерело

5

Різниця між параметричною і непараметричною завантажувальною стрічкою полягає в тому, що перша генерує свої вибірки з (передбачуваного) розподілу даних, використовуючи оцінені значення параметрів, тоді як остання формує свої вибірки шляхом вибірки із заміною із спостережуваних даних - не передбачається параметрична модель .

— jbowman

@jbowman - "не-параметричну» самозавантаження робить мати базову модель - просто , що це інша модель , яка використовується для мотивації оцінки параметра.

— ймовірністьлогічний

@miura Будь ласка, не скасовуйте свою відповідь. Якщо ви хочете, щоб запитувач обрав іншу відповідь, прокоментуйте це питання. Якщо ви хочете, щоб ваша відповідь була видалена, будь ласка, позначте її та попросіть її.

— Glen_b -Встановіть Моніку