Відбір проб з багатоваріантної гауссової з графічною лаплаціанською (зворотною) коваріацією

Наприклад, з Кутіса-Міллера-Пенга (на основі роботи Спілмана та Тенга) ми знаємо, що ми можемо дуже швидко розв’язати лінійні системи $A x = b$ для матриць $A$ що є графіком Лаплаціанської матриці для деякого розрідженого графіка з невід’ємними вагами .

Тепер (перше запитання) розглянемо використання однієї з цих графічних матриць Лаплаціана $A$ як коваріації або (другого питання) зворотної матриці коваріації нульового середнього багатоваріантного нормального розподілу $\mathcal{N}(\boldsymbol{0}, A)$ або $\mathcal{N}(\boldsymbol{0}, A^{-1})$ . У кожному з цих випадків у мене є два питання:

А. Наскільки ефективно ми можемо взяти зразок із цього розподілу? (Як правило, щоб скласти вибірку, ми обчислюємо розклад Холеського $A = LL^T$ , проведемо стандартний нормальний $y \sim \mathcal{N}(\boldsymbol{0}, I)$ , потім обчислимо вибірку як $x = L^{-1} y$ ).

B. Наскільки ефективно ми можемо обчислити визначник $A$ ?

Зауважте, що обидва з них можна було б легко розв'язати за допомогою декомпозиції Холеського, але я не одразу бачу, як витягти $L$ ефективніше, ніж просто, використовуючи стандартний алгоритм Холеського, який не використовує методи, представлені у вищенаведеному посиланні працює, і які мали б кубічну складність для графіків із обмеженою, але високою шириною ширини.

— dan_x
джерело

Я думаю, що це може допомогти бути трохи більш конкретним щодо того, що ви вважаєте "ефективним" в обох випадках. Чи "ефективний" такий самий, як "не залежний від розкладання Чолеського"?

— Суреш Венкат

Дякую за пропозицію. Можливо, що відповідь на всі запитання полягає в тому, що "потрібно обчислити розклад Холеського, і немає структури, яка могла б бути використана за межами матриці". Мені було б цікаво дізнатися, чи це правда (але сподіваюся, що це не так). Що стосується "ефективності" в останньому абзаці, так, я здебільшого маю на увазі ефективніше порівняно зі стандартними розрідженими алгоритмами Холеського. Хоча якби існував спосіб використовувати методики вищезазначеної роботи для обчислення Чолеського настільки ж швидко, як це можна зробити за допомогою інших засобів, це також було б цікаво.

— dan_x

N (0, A)

$N(0,A)$

A = B^{T} B

$A = B^T B$

B

$B$

R^{E}

$\mathbb{R}^E$

E

$E$

B

$B$

Тут є два окремих питання.

$Ax=b$ $A^{1/2}b$
Як обчислити визначник.

Короткі відповіді: 1) використовуйте раціональні наближення функції матриці; 2) ви цього не робите, але вам це все одно не потрібно. Я вирішую обидва ці питання нижче.

Наближення матричного квадратного кореня

Ідея тут полягає в перетворенні раціонального наближення функції для скалярних функцій в раціональне наближення функції для матричних функцій.

\sqrt{x} \approx r (x) := \frac{a_{1}}{x + b_{1}} + \frac{a_{2}}{x + b_{2}} + \dots + \frac{a_{N}}{x + b_{N}},

$\sqrt{x} \approx r(x) := \frac{a_1}{x+b_1} + \frac{a_2}{x+b_2} + \dots + \frac{a_N}{x+b_N},$

b_{i}

$b_i$

[m, M]

$[m,M]$

O (\log \frac{M}{m})

$O(\log \frac{M}{m})$

a_{i}

$a_i$

- b_{i}

$-b_i$

r (A) = a_{1} (A + b_{1} I)^{- 1} + a_{2} (A + b_{2} I)^{- 1} + \dots + a_{N} (A + b_{N} I)^{- 1} .

$r(A) = a_1(A + b_1 I)^{-1} + a_2(A + b_2 I)^{-1} + \dots + a_N(A + b_N I)^{-1}.$

$A$

\begin{aligned} | | A^{1 / 2} - r (A) | |_{2} & = | | U (Σ^{1 / 2} - r (Σ)) U^{*} | |_{2}, \\ = max_{i} | \sqrt{σ_{i}} - r (σ_{i}) | \end{aligned}

$\begin{align} ||A^{1/2} - r(A)||_2 &= ||U\left(\Sigma^{1/2} - r(\Sigma)\right)U^*||_2, \\ &= \max_i |\sqrt{\sigma_i} - r(\sigma_i)| \end{align}$

A = U Σ U^{*}

$A = U \Sigma U^*$

A

$A$

Позначивши номер умови за допомогою , ми можемо застосувати до будь-якого потрібного допуску, виконавши позитивно зміщений графік лаплаціанських розв’язків форми, $A$ $\kappa$ $A^{1/2}b$ $O(\log \kappa)$

(A + b I) x = b .

$(A + bI)x=b.$

Ці рішення можна виконати за допомогою улюбленого вирішувача графіка Laplacian - я віддаю перевагу методам багатожиточного типу, але той, який ви цитуєте в роботі, теж повинен бути добре. Додатковий лише сприяє конвергенції розв'язувача. $bI$

Для чудової статті, що обговорює це, а також більш загальні методи складного аналізу, що застосовуються до несиметричних матриць, див. Обчислення , та пов'язані з ними функції матриць за допомогою контурних інтегралів $A^α$ $\log(A)$ , Хейл, Хігхем і Трефетен (2008) ).

Визначальний "обчислення"

Детермінант важче обчислити. Наскільки я знаю, кращий спосіб обчислити розкладання Шура з допомогою QR - алгоритму, а потім зчитувати власні від діагоналі верхньої трикутної матриці . Це займає час , де - кількість вузлів у графі. $A = Q U Q^*$ $U$ $O(n^3)$ $n$

Однак обчислення визначників є суттєво не обумовленою проблемою, тому якщо ви коли-небудь читаєте статтю, яка спирається на обчислення визначників великої матриці, ви повинні бути дуже скептично налаштовані до методу.

На щастя, вам, мабуть, фактично не потрібен детермінант. Наприклад,

Для отримання зразків з одного гауссового розподілу константа нормалізації однакова у всіх точках, тому ніколи не потрібно її обчислювати. $N(0,A^{-1})$
Якщо ваша матриця являє собою зворотну коваріацію локального наближення Гаусса в точці до не-гауссового розподілу, то детермінант дійсно змінюється від точки до точки. Однак у кожній ефективній схемі вибірки я знаю (включаючи ланцюг Маркова Монте-Карло, вибірку важливості тощо), що вам дійсно потрібно, це коефіцієнт детермінант , де - поточна точка, а - запропонований наступний зразок. $A = A_x$ $x$ $det (A_{x_{0}}^{- 1} A_{x_{p}}),$ $\det(A_{x_0}^{-1}A_{x_p}),$ $x_0$ $x_p$

Ми можемо розглядати як оновлення низького рангу до тотожності, де дієва ранг, , оновлення низького рангу - це локальний показник того, наскільки не гауссова справжня дистрибуція; зазвичай це набагато нижче, ніж повний ранг матриці. Дійсно, якщо великий, то справжній розподіл локально настільки неавсійський, що варто поставити під сумнів всю стратегію спроби вибірки цього розподілу за допомогою локальних наближень Гаусса. $A_{x_0}^{-1}A_{x_p}$

A_{x_{0}}^{- 1} A_{x_{p}} = I + Q D Q^{*},

$A_{x_0}^{-1}A_{x_p} = I + Q D Q^*,$

r

$r$

r

$r$

Фактори низького рангу і можна знайти за допомогою рандомізованих SVD або Lanczos, застосувавши матрицю до різних векторів, для кожного застосування яких потрібен один графік Розчин Лаплаціа. Таким чином, загальна робота щодо отримання цих низькопорядкованих факторів становить . $Q$ $D$

A_{x_{0}}^{- 1} A_{x_{p}} - I

$A_{x_0}^{-1}A_{x_p} -I$

O (r)

$O(r)$

O (r max (n, E))

$O(r \max(n,E))$

Знаючи , визначальне співвідношення тоді $D = \text{diag}(d_1,d_2,\dots,d_r)$

det (A_{x_{0}}^{- 1} A_{x_{p}}) = det (I + Q D Q^{*}) = \exp (\sum_{i = 1}^{r} \log d_{i}) .

$\det(A_{x_0}^{-1}A_{x_p}) = \det(I + Q D Q^*) = \exp\left(\sum_{i=1}^r \log d_i\right).$

Ці методи визначення обчислювального коефіцієнта низького рангу можна знайти в методі Stohastic Newton MCMC для великих масштабних статистичних обернених проблем із застосуванням до сейсмічної інверсії , Martin, et al. (2012 р.). У цій роботі він застосовується до задач континууму, тому "граф" - це сітка в тривимірному просторі, а графік Лаплаціан - фактична матриця Лаплачія. Однак всі методи застосовуються до загальних графіків лаплачан. Напевно, є й інші документи, що застосовують цю техніку до загальних графіків (розширення тривіальне і в основному те, що я щойно написав).

— Нік Алгер
джерело