Холеський проти ейгендекомпозиції для малювання зразків з багатовимірного нормального розподілу

16

Я б хотів намалювати зразок . Вікіпедія пропонує або використовувати склад Холеського, або Ейгенде , тобто або $\mathbf{x} \sim N\left(\mathbf{0}, \mathbf{\Sigma} \right)$ $\mathbf{\Sigma} = \mathbf{D}_1\mathbf{D}_1^T$ $\mathbf{\Sigma} = \mathbf{Q}\mathbf{\Lambda}\mathbf{Q}^T$

Отже, зразок можна скласти через: або де $\mathbf{x} = \mathbf{D}_1 \mathbf{v}$ $\mathbf{x} = \mathbf{Q}\sqrt{\mathbf{\Lambda}} \mathbf{v}$ $\mathbf{v} \sim N\left(\mathbf{0}, \mathbf{I} \right)$

Вікіпедія припускає, що вони обидва однаково хороші для отримання зразків, але метод Холеського має більш швидкий час обчислення. Це правда? Особливо чисельно при використанні методу Монте-Карло, де відхилення по діагоналях можуть відрізнятися на кілька порядків? Чи є офіційний аналіз цієї проблеми?

— Дамієн
джерело

1

Дамієн, найкращий рецепт, щоб переконатися, що програма швидша, - це перевірити її самостійно на своєму програмному забезпеченні: функції розкладу Cholesky та Eigen можуть відрізнятися швидкістю в різних реалізаціях. Шолеський шлях більш популярний, AFAIK, але власний шлях може бути більш гнучким.

— ttnphns

1

Я розумію, що Чолеський є швидшим

3/3

O (N^{3} / 3)

$O(N^3/3)$ ( Вікіпедія ), тоді як ейгендекомпозиція - це

O (N^{3})

$O(N^3)$ ( Алгоритм Якобі Ейенвалю . Однак, у мене є ще дві проблеми: (1) Що означає "потенційно більш гнучка" ? та (2) Відхилення відрізняються на кілька порядків (

10^{- 4}

$10^{-4}$ проти

10^{- 9}

$10^{-9}$ для самих екстремальних елементів) - чи це має відношення до вибраного алгоритму?

— Демієн,

@Damien Одним з аспектів "гнучкішого" є те, що ейгендекомпозиція, яка для коваріаційної матриці відповідає SVD , може бути усічена, щоб отримати оптимальне низьке рангове наближення повної матриці. Урізаний SVD можна обчислити безпосередньо, а не обчислити повну річ, а потім викинути невеликі власні значення.

— GeoMatt22

Як щодо читання моєї відповіді під час переповнення стека: Отримайте вершини еліпса на графіці коваріації еліпса (створено car::ellipse) . Хоча питання задається в різному застосуванні, теорія позаду однакова. Ви побачите там приємні фігури для геометричного пояснення.

— 李哲源

12

Проблему вивчав Страка та ін. Для фільтру Нецентризований Кальман, який черпає (детерміновані) зразки з багатоваріантного нормального розподілу як частини алгоритму. За деякої долі результати можуть бути застосовні до проблеми Монте-Карло.

Декомпозиція Чолеського (CD) та Ейконова декомпозиція (ED) - і з цього приводу власне матричне квадратне коріння (MSR) - це всі шляхи, за допомогою яких можна розбити позитивну напіввизначену матрицю (PSD).

Розглянемо SVD матриці PSD, . Оскільки Р СДП, це насправді так само , як Еди з . Крім того, ми можемо розділити діагональну матрицю її квадратного кореня: , зазначивши , що . $P = USV^T$ $P = USU^T$ $P = U\sqrt{S}\sqrt{S}^TU^T$ $\sqrt{S} = \sqrt{S}^T$

Тепер ми можемо ввести довільну ортогональну матрицю : $O$

$P = U\sqrt{S}OO^T\sqrt{S}^TU^T = (U\sqrt{S}O)(U\sqrt{S}O)^T$ .

Вибір фактично впливає на результати оцінки, особливо коли є сильні позадіагональні елементи коваріаційної матриці. $O$

У статті досліджено три варіанти : $O$

$O = I$ , що відповідає ЕД;
$O = Q$ з QR розкладання з - , що відповідає CD; і $U\sqrt{S} = QR$
$O = U^T$ що призводить до симетричної матриці (тобто MSR)

На основі чого були зроблені наступні висновки після багаторічного аналізу (цитування):

Для трансформованої випадкової величини з некорельованими елементами всі три розглянуті МД забезпечують однакові сигма-точки, отже, вони майже не мають різниці в якості наближення [Нецензурована трансформація]. У такому випадку компакт-диск може віддавати перевагу за низькими витратами.

Якщо випадкова величина містить корельовані елементи, використання різних [декомпозицій] може суттєво вплинути на якість апроксимації [Нецензована трансформація] середньої або коваріаційної матриці перетвореної випадкової величини. Два вищевикладені випадки показали, що слід віддати перевагу [ЕД].

Якщо елементи змінної, що підлягає перетворенню, виявляють сильну кореляцію, так що відповідна матриця коваріації є майже сингулярною, слід враховувати ще одне питання - чисельну стабільність алгоритму, що обчислює MD. SVD набагато більш чисельно стійкий для майже сингулярних матриць коваріації, ніж ChD.

Довідка:

Страка, О.; Дуник, Дж .; Simandl, M. & Havlik, J. "Аспекти та порівняння матричних декомпозицій у недисперсному фільтрі Кальмана", American Control Conference (ACC), 2013, 2013, 3075-3080.

— Дамієн
джерело

6

Ось проста ілюстрація за допомогою R для порівняння часу обчислення двох методів.

library(mvtnorm)
library(clusterGeneration)
set.seed(1234)
mean <- rnorm(1000, 0, 1)
sigma <- genPositiveDefMat(1000)
sigma <- sigma$Sigma

eigen.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "eigen")
  )

chol.time <- system.time(
  rmvnorm(n=1000, mean=mean, sigma = sigma, method = "chol")
  )

Часи роботи є

> eigen.time
   user  system elapsed 
   5.16    0.06    5.33 
> chol.time
   user  system elapsed 
   1.74    0.15    1.90

При збільшенні розміру вибірки до 10000 тривалість роботи є

> eigen.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "eigen")
+   )
> 
> chol.time <- system.time(
+   rmvnorm(n=10000, mean=mean, sigma = sigma, method = "chol")
+   )
> eigen.time
   user  system elapsed 
   15.74    0.28   16.19 
> chol.time
   user  system elapsed 
   11.61    0.19   11.89

Сподіваюсь, це допомагає.

— Аарон Зенг
джерело

3

Ось посібник чи демонстрація бідного чоловіка, що підтверджує себе:

> set.seed(0)
> # The correlation matrix
> corr_matrix = matrix(cbind(1, .80, .2, .80, 1, .7, .2, .7, 1), nrow=3)
> nvar = 3 # Three columns of correlated data points
> nobs = 1e6 # One million observations for each column
> std_norm = matrix(rnorm(nvar * nobs),nrow=nobs, ncol=nvar) # N(0,1)

Corr = [\begin{matrix} 1 & .8 & .2 \\ .8 & 1 & .7 \\ .2 & .7 & 1 \end{matrix}]

$\text{Corr}=\small \begin{bmatrix} 1 & .8 & .2\\ .8& 1 & .7 \\ .2&.7&1 \end{bmatrix}$

N = [\begin{matrix} [, 1] & [, 2] & [, 3] \\ [1,] & - 1.0806338 & 0.6563913 & 0.8400443 \\ [2,] & - 1.1434241 & - 0.1729738 & - 0.9884772 \\ ⋮ & ⋮ & ⋮ & ⋮ \\ ⋮ & ⋮ & ⋮ & ⋮ \\ [999999,] & 0.4861827 & 0.03563006 & - 2.1176976 \\ [1000000,] & - 0.4394551 & 1.69265517 & - 1.9534729 \end{matrix}]

$\text{N}=\tiny \begin{bmatrix} & [,1] & [,2] & [,3] \\ [1,] & -1.0806338 & 0.6563913 & 0.8400443 \\ [2,] & -1.1434241 & -0.1729738 & -0.9884772 \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ [999999,] & 0.4861827 & 0.03563006 & -2.1176976 \\ [1000000,] & -0.4394551 & 1.69265517 & -1.9534729\\ \end{bmatrix}$

1. МЕТОД СВД:

{[\underset{[3 \times 3]}{U} \underset{[\begin{matrix} \sqrt{d_{1}} & 0 & 0 \\ 0 & \sqrt{d_{2}} & 0 \\ 0 & 0 & \sqrt{d_{3}} \end{matrix}]}{Σ^{0.5}} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\left[ \bf \underset{[3 \times 3]}{\color{blue}{\Large\,U}}\,\,\,\,\,\underset{\tiny \begin{bmatrix}\sqrt{d_1}&0&0\\0&\sqrt{d_2}&0\\0&0&\sqrt{d_3}\end{bmatrix}}{\Large\color{blue}{\Sigma^{0.5}}} \, \underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> ptm <- proc.time()
> # Singular Value Decomposition method:
> svd = svd(corr_matrix)   
> rand_data_svd = t(svd$u %*% (diag(3) * sqrt(svd$d)) %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.29    0.05    0.34 
> 
> ptm <- proc.time()

2. ХОЛЕСКИЙ МЕТОД:

{[\underset{[\begin{matrix} c_{11} & 0 & 0 \\ c_{21} & c_{22} & 0 \\ c_{31} & c_{32} & c_{33} \end{matrix}]}{Ch} \underset{[3 \times 10^{6}]}{N^{T}}]}^{T}

$\bf \left[ \underset{\begin{bmatrix}c_{11}&0&0\\c_{21}&c_{22}&0\\c_{31}&c_{32}&c_{33}\end{bmatrix}}{\Large\color{blue}{\text{Ch}}}\,\,\underset{[3\times 10^6]}{\Large\color{blue}{N^T}} \right]^T$

> # Cholesky method:
> chole = t(chol(corr_matrix))
> rand_data_chole = t(chole %*% t(std_norm))
> proc.time() - ptm
   user  system elapsed 
   0.25    0.03    0.31

Дякую @ userr11852, що вказав мені, що існує кращий спосіб обчислити різницю в продуктивності між SVD та Cholesky, на користь останнього, використовуючи функцію microbenchmark. За його пропозицією, ось результат:

microbenchmark(chol(corr_matrix), svd(corr_matrix))
Unit: microseconds
              expr     min     lq      mean  median      uq     max neval cld
 chol(corr_matrix)  24.104  25.05  28.74036  25.995  26.467  95.469   100  a 
  svd(corr_matrix) 108.701 110.12 116.27794 111.065 112.719 223.074   100   b

— Антоні Пареллада
джерело

@ user11852 Дякую Я читаю курсиво запис, microbenchmarkі це дійсно має значення.

— Антоні Пареллада

Звичайно, але чи є різниця в оцінці?

— Демієн

Гарна думка. Я не встиг вивчити пакунок.

— Антоні Пареллада