Скільки регуляризації додати, щоб зробити SVD стабільним?

Я використовував SVD Intel MKL ( dgesvdчерез SciPy) і зауважив, що результати значно відрізняються, коли я змінюю точність між float32і float64коли моя матриця погано обумовлена / не повний ранг. Чи є керівництво щодо мінімальної кількості регуляризації, яке я повинен додати, щоб зробити результати нечутливими до float32-> float64зміни?

Зокрема, роблячи $A=UDV^{T}$ , Я бачу, що $L_\infty$ норма $V^{T}X$ рухається приблизно на 1, коли я змінюю точність між float32і float64. $L_2$ норма $A$ є $10^5$ і має близько 200 нульових власних значень із 784 всього.

Робимо SVD далі $\lambda I + A$ з $\lambda=10^{-3}$ різниця зникала.

— Ярослав Булатов
джерело

Який розмір

N

$N$ з

N \times N

$N\times N$ матриця

A

$A$ для цього прикладу (це навіть квадратна матриця)? 200 нульових власних значень чи сингулярних значень? Норма Фробеніуса

| | A | |_{F}

$||A||_\text{F}$ для представницького прикладу також було б корисно.

— Антон Меншов

У цьому випадку матриця 784 x 784, але мене більше цікавить загальна техніка, щоб знайти гарне значення лямбда

— Ярослав Булатов

Отже, чи є різниця в

V

$V$ лише в останніх стовпцях, що відповідають нульовим значенням однини?

— Нік Алгер

Якщо є кілька рівних сингулярних значень, SVD не є унікальним. У вашому прикладі я здогадуюсь, що проблема виникає з декількох нульових сингулярних значень і що різна точність призводить до різного вибору основи відповідного сингулярного простору. Я не знаю, чому це змінюється, коли ти регулюєш ...

— Дірк

...що

X

$X$ ?

— Федеріко Полоні

Відповіді:

Хоча на питання є чудова відповідь, ось основне правило для малих одиничних значень, з графіком.

Якщо значення особливості є ненульовим, але дуже малим, то слід визначити його зворотне значення рівним нулю, оскільки його видима величина, ймовірно, є артефактом помилки округлення, а не значущим числом. Правдоподібна відповідь на питання "наскільки мало?" полягає в тому, щоб редагувати таким чином усі одиничні значення, відношення яких до найбільшого менше $N$ разів машинна точність $\epsilon$ .

$\qquad$ - Числові рецепти с. 795

Додано: наступні пару рядків обчислюють це правило.

#!/usr/bin/env python2

from __future__ import division
import numpy as np
from scipy.sparse.linalg import svds  # sparse, dense or LinOp

#...............................................................................
def howsmall( A, singmax=None ):
    """ singular values < N float_eps sing_max  may be iffy, questionable
        "How small is small ?"
        [Numerical Recipes p. 795](http://apps.nrbook.com/empanel/index.html?pg=795)
    """
        # print "%d singular values are small, iffy" % (sing < howsmall(A)).sum()
        # small |eigenvalues| too ?
    if singmax is None:
        singmax = svds( A, 1, return_singular_vectors=False )[0]  # v0=random

    return max( A.shape ) * np.finfo( A.dtype ).eps * singmax

Матриця Гільберта, як видається, широко використовується як тестовий випадок для помилок обертання:

Тут біти низького порядку в мантісах матриці Гільберта нульові A.astype(np.float__).astype(np.float64), а потім np.linalg.svdзапускаються float64. (Результати з svdусіма float32приблизно однакові.)

Просто обрізання float32може бути навіть корисним для позначення великомірних даних, наприклад, для класифікації поїздів / тестів.

Реальні тестові випадки будуть вітатися.

— деніс
джерело

btw, scipy, здається, додає коефіцієнт 1e3 для float32 та 1e6 для float64, цікаво звідки вони

— Ярослав Булатов,

@ Yaroslav Bulatov, numpyі scipy.linalg.svdзателефонуйте LAPACK gesdd , див. Параметр JOBRу dgejsv: "Вказує RANGE для сингулярних значень. Видає ліцензію на встановлення нуля малих позитивних сингулярних значень, якщо вони знаходяться поза ..." ( scipy.sparse.linalg.svdsзавершує ARPACK і має параметр tol, Толерантність для

— denis

Розклад сингулярного значення для симетричної матриці $A=A^{T}$ є одним і тим же, як і його канонічна ейгендекомпозиція (тобто з ортонормальною матрицею власних векторів), тоді як те ж саме для несиметричної матриці $M=U \Sigma V^T$ - просто канонічне власне значення розкладу для симетричної матриці

H = [\begin{matrix} 0 & M \\ M^{T} & 0 \end{matrix}] = [\begin{matrix} U & 0 \\ 0 & V \end{matrix}] [\begin{matrix} 0 & Σ \\ Σ & 0 \end{matrix}] {[\begin{matrix} U & 0 \\ 0 & V \end{matrix}]}^{T}

$H=\begin{bmatrix}0 & M\\ M^{T} & 0 \end{bmatrix}=\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}\begin{bmatrix}0 & \Sigma\\ \Sigma & 0 \end{bmatrix}\begin{bmatrix}U & 0\\ 0 & V \end{bmatrix}^{T}$ Отже, не втрачаючи загальності, давайте розглянемо тісно пов'язане питання: Якщо дві симетричні матриці приблизно однакові, то чи слід очікувати, що їх канонічні ейгендекомпозиції будуть приблизно однаковими?

Відповідь - дивовижна ні. Дозволяє $\epsilon>0$ будьте малі та розгляньте дві матриці

A_{ϵ} = [\begin{matrix} 1 & ϵ \\ ϵ & 1 \end{matrix}] = V Λ_{ϵ} V^{T}, B_{ϵ} = [\begin{matrix} 1 + ϵ & 0 \\ 0 & 1 - ϵ \end{matrix}] = U Λ_{ϵ} U^{T}

$A_{\epsilon}=\begin{bmatrix}1 & \epsilon\\ \epsilon & 1 \end{bmatrix}=V\Lambda_{\epsilon}V^{T},\qquad B_{\epsilon}=\begin{bmatrix}1+\epsilon & 0\\ 0 & 1-\epsilon \end{bmatrix}=U\Lambda_{\epsilon}U^{T}$ вони мають власні значення

Λ_{ϵ} = d i a g (1 + ϵ, 1 - ϵ)

$\Lambda_{\epsilon}=\mathrm{diag}(1+\epsilon,1-\epsilon)$ , але чиї власні вектори є

V = \frac{1}{\sqrt{2}} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}], U = [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}] .

$V=\frac{1}{\sqrt{2}}\begin{bmatrix}1 & 1\\ 1 & -1 \end{bmatrix},\qquad U=\begin{bmatrix}1 & 0\\ 0 & 1 \end{bmatrix}.$ Поки матриці

A_{ϵ} \approx B_{ϵ}

$A_{\epsilon} \approx B_{\epsilon}$ приблизно однакові, їх матриці власних векторів

V

$V$ і

U

$U$ дуже різні. Дійсно, оскільки ейгендекомпозиції унікальні для

ϵ > 0

$\epsilon>0$ , вибору насправді не існує

U, V

$U,V$ такий як

U \approx V

$U\approx V$

Тепер, застосовуючи це розуміння до SVD з обмеженою точністю, давайте напишемо $M_{0}=U_{0}\Sigma_{0}V_{0}^{T}$ як ваша матриця в float64 точності, і $M_{\epsilon}=U_{\epsilon}\Sigma_{\epsilon}V_{\epsilon}^{T}$ як та сама матриця в float32точності. Якщо припустити, що самі SVD є точними, то значення сингулярні $\Sigma_{0},\Sigma_{\epsilon}$ повинна відрізнятися не більше ніж малим постійним коефіцієнтом $\epsilon\approx10^{-7}$ , але одиничні вектори $U_{0},U_{\epsilon}$ і $V_{0},V_{\epsilon}$ може відрізнятися довільно великою кількістю. Отже, як показано, немає можливості зробити SVD "стабільним" у значенні сингулярних векторів.

— Річард Чжан
джерело

Це приклад від: users.math.msu.edu/users/markiwen/Teaching/MTH995/Papers/… ?

— Пам'яті

Це чудова довідка. Не знаю, я навчився цього конкретного прикладу багато років тому на уроці математики :-)

— Річард Чжан