Різні перетворення щільності ймовірності через якобіанський фактор

У розпізнаванні образів Бішопа та машинному навчанні я прочитав наступне, одразу після введення щільності ймовірності $p(x\in(a,b))=\int_a^bp(x)\textrm{d}x$ :

При нелінійній зміні змінної щільність ймовірності перетворюється по-різному від простої функції завдяки якобіанському фактору. Наприклад, якщо ми розглянемо зміну змінних $x = g(y)$ , то функція $f(x)$ стає $\tilde{f}(y) = f(g(y))$ . Тепер розглянемо щільність ймовірності $p_x(x)$ яка відповідає щільності $p_y(y)$ стосовно нової змінної $y$ , де суфекти позначають той факт, що $p_x(x)$ і $p_y(y)$ - різна щільність. Спостереження, що потрапляють у діапазон $(x, x + \delta x)$ , для малих значень $\delta x$ будуть перетворені в діапазон $(y, y + \delta y$ ), де , отже, . $p_x(x)\delta x \simeq p_y(y)δy$ $p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |$

Що таке якобійський фактор і що саме все означає (можливо, якісно)? Єпископ каже, що наслідком цієї властивості є те, що концепція максимальної щільності ймовірності залежить від вибору змінної. Що це означає?

Як на мене, це виглядає зовсім непритомним (враховуючи це у вступній главі). Буду вдячний за деякі підказки, дякую!

machine-learning probability

— сте
джерело

"Інтуїтивне пояснення щільності перетвореної змінної" може бути корисним. Щодо "якобіян", будь ласка, пошукайте наш сайт .

— whuber

Чудовий опис якобійського чинника дивіться у відеоуроці Ханської академії про детермінант Якобії. khanacademy.org/math/multivariable-calculus/…

— JStrahl

Я пропоную вам прочитати рішення питання 1.4, яке забезпечує добру інтуїцію.

У двох словах, якщо у вас є довільна функція та дві змінні і які пов'язані між собою функцією , то ви можете знайти максимум функції або шляхом прямого аналізу : або перетворена функція : . Не дивно, і будуть пов'язані з кожним як (тут я припустив, що . $f(x)$ $x$ $y$ $x = g(y)$ $f(x)$ $\hat{x} = argmax_x(f(x))$ $f(g(y))$ $\hat{y} = argmax_y(f(g(y))$ $\hat{x}$ $\hat{y}$ $\hat{x} = g(\hat{y})$ $\forall{y}: g^\prime(y)\neq0)$

Це не стосується розподілу ймовірностей. Якщо у вас є розподіл ймовірностей та дві випадкові величини, які пов'язані між собою через . Тоді немає прямого зв’язку між і . Це відбувається через якобіанський фактор - фактор, який показує, як об'єм відносно змінюється такою функцією, як . $p_x(x)$ $x=g(y)$ $\hat{x} = argmax_x(p_x(x))$ $\hat{y}=argmax_y(p_y(y))$ $g(.)$

— MajidL
джерело