Концептуально завантажувальний завантаження проти Bayesian Bootstrapping?

У мене виникають проблеми з розумінням того, що таке процес Bayesian Bootstrapping, і чим це буде відрізнятися від вашого звичайного завантаження. І якби хтось міг запропонувати інтуїтивний / концептуальний огляд та порівняння обох, це було б чудово.

Візьмемо приклад.

Скажімо, у нас є набір даних X, що становить [1,2,5,7,3].

Якщо ми відбираємо вибірку із заміною кілька разів, щоб створити розміри вибірки, що дорівнюють розміру X (так, [7,7,2,5,7], [3,5,2,2,7] тощо), і тоді ми обчислити засоби кожного, чи означає середній розподіл вибірки вибірки?

Яке було б байєсівське розповсюдження завантажувальної програми?

І як аналогічно здійснюється розподіл інших байесівських завантажувальних параметрів (дисперсія тощо)?

bayesian sampling bootstrap

— SpicyClubSauce
джерело

Дивіться sumsar.net/blog/2015/04/… та projecteuclid.org/euclid.aos/1176345338 , можливо, @ rasmus-bååth може відповісти вам;)

— Тім

"Частістська" завантажувальна програма сприймає дані як розумне наближення до невідомого розподілу населення. Тому розподіл вибірки статистики (функція даних) можна наблизити шляхом багаторазового перекомпонування спостережень із заміною та обчисленням статистики для кожного вибірки.

Нехай позначають вихідні дані. (У наведеному прикладі ) Нехай позначає зразок завантажувальної програми. Такий зразок, ймовірно, матиме деякі спостереження, повторені один чи кілька разів, а інші спостереження відсутні. Середнє значення зразка завантажувального пристрою задається $y = (y_1,\ldots,y_n)$ $n=5$ $y^b = (y_1^b, \ldots, y_n^b)$ Саме розподілпо ряду реплікацій завантажувального пристрою використовується для наближення розподілу вибірки з невідомої сукупності.

m_{b} = \frac{1}{n} \sum_{i = 1}^{n} y_{i}^{b} .

$m_b = \frac{1}{n} \sum_{i=1}^n y_i^b.$

m_{b}

$m_b$

Для того, щоб зрозуміти зв’язок між частою завантажувальною стрічкою та байєсівською завантажувальною стрічкою, доцільно подивитися, як обчислити з іншого погляду. $m_b$

У кожному зразку завантажувальної програми , кожне спостереження відбувається десь від 0 до разів. Нехай позначає кількість разів, коли виникає у , і нехай . Таким чином, $y^b$ $y_i$ $n$ $h_i^b$ $y_i$ $y^b$ $h^b = (h_1^b, \ldots, h_n^b)$ $h_i^b \in \{0, 1, \ldots, n-1,n\}$ і . З огляду на , ми можемо побудувати сукупність негативних ваг, що дорівнюють одному: , де . За допомогою цього позначення ми можемо повторно виразити середнє значення зразка завантажувальної програми як $\sum_{i=1}^n h_i^b = n$ $h^b$ $w^b = h^b/n$ $w_i^b = h_i^b/n$

m_{b} = \sum_{i = 1}^{n} w_{i}^{b} y_{i} .

$m_b = \sum_{i=1}^n w_i^b\, y_i.$

Спосіб вибору спостережень для вибірки завантажувального пристрою визначає спільне розподіл для . Зокрема, має багаточленове розподіл і, таким чином, $w^b$ $h^b$ Тому ми можемо обчислити , витягнувши з його розподілу і обчисливши крапковий добуток з . З цієї нової точки зору виявляється, що спостереженняфіксуються,коли ваги змінюються.

(n w^{b}) \sim Multinomial (n, (1 / n)_{i = 1}^{n}) .

$(n\,w^b) \sim \textsf{Multinomial}(n,(1/n)_{i=1}^n).$

m_{b}

$m_b$

w^{b}

$w^b$

y

$y$

За байєсівським висновком, спостереження справді приймаються як фіксовані, тому ця нова перспектива видається спільною з байєсівським підходом. Дійсно, обчислення середньої величини за байесівською завантажувальною стрічкою відрізняється лише розподілом ваг. (Тим не менш, з концептуальної точки зору байєсівська завантажувальна стрічка сильно відрізняється від частістської версії.) Дані є фіксованими, а ваги - невідомі параметри. Нас може зацікавити деякий функціонал даних, який залежить від невідомих параметрів: $y$ $w$

μ = \sum_{i = 1}^{n} w_{i} y_{i} .

$\mu = \sum_{i=1}^n w_i\, y_i.$

Ось ескіз ескізу моделі за байєсівською завантажувальною стрічкою: розподіл вибірки для спостережень є багаточленом, а попередній для ваг є обмежуючим розподілом Діріхле, який надає всю свою вагу вершинам симплексу. (Деякі автори називають цю модель як мультиноміальну модель вірогідності .)

w \sim Dirichlet (1, \dots, 1) .

$w \sim \textsf{Dirichlet}(1,\ldots,1).$

$\mu$ $w$ $y$

\sum_{i = 1}^{n} w_{i} g (y_{i}, θ) = \underline{0},

$\sum_{i=1}^n w_i\, g(y_i,\theta) = \underline 0,$

g (y_{i}, θ)

$g(y_i,\theta)$

θ

$\theta$

\underline{0}

$\underline 0$

θ

$\theta$

y

$y$

w

$w$

w

$w$ емпірична ймовірність і з узагальненим методом моментів (GMM).)

\sum_{i = 1}^{n} w_{i} (y_{i} - μ) = 0.

$\sum_{i=1}^n w_i\,(y_i - \mu) = 0.$

θ = (μ, v)

$\theta = (\mu,v)$

g (y_{i}, θ) = (\begin{matrix} y_{i} - μ \\ (y_{i} - μ)^{2} - v \end{matrix}) .

$g(y_i,\theta) = \begin{pmatrix} y_i - \mu \\ (y_i - \mu)^2 - v \end{pmatrix}.$

— меф
джерело

Дякую за дуже детальний опис. Особисто я вдячний короткою заявою про те, коли обирати кожного з них.

— ErichBSchulz