Чи є властивість інваріантності оцінювача ML безглуздою з байєсівської точки зору?

Казелла та Бергер констатують властивість інваріантності оцінювача ML таким чином:

Однак мені здається, що вони визначають "ймовірність" $\eta$ повністю ad hoc та безглуздо:

Якщо я застосую основні правила теорії ймовірностей до простого випадку $\eta=\tau(\theta)=\theta^2$ , Я натомість отримую наступне:

L (η | x) = p (x | θ^{2} = η) = p (x | θ = - \sqrt{η} \lor θ = \sqrt{η}) =: p (x | A \lor B)

$L(\eta|x)=p(x|\theta^2=\eta)=p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)=:p(x|A \lor B)$ Тепер застосовуємо теорему Байєса, а потім факт, що

A

$A$ і

B

$B$ взаємно виключають, щоб ми могли застосувати правило суми:

p (x | A \lor B) = p (x) \frac{p (A \lor B | x)}{p (A \lor B)} = p (x | A \lor B) = p (x) \frac{p (A | x) + p (B | x)}{p (A) + p (B)}

$p(x|A\lor B)=p(x)\frac {p(A\lor B|x)}{p(A\lor B)}=p(x|A\lor B)=p(x)\frac {p(A|x)+p(B|x)}{p(A)+p(B)}$

Тепер знову застосуємо теорему Байєса до термінів у чисельнику:

p (x) \frac{p (A) \frac{p (x | A)}{p (x)} + p (B) \frac{p (x | B)}{p (x)}}{p (A) + p (B)} = \frac{p (A) p (x | A) + p (B) p (x | B)}{p (A) + p (B)}

$p(x)\frac {p(A)\frac {p(x|A)}{p(x)}+p(B)\frac {p(x|B)}{p(x)}}{p(A)+p(B)}=\frac {p(A)p(x|A)+p(B)p(x|B)}{p(A)+p(B)}$

Якщо ми хочемо максимізувати цей Wrt до $\eta$ щоб отримати максимальну оцінку ймовірності $\eta$ , ми максимізуємо:

p_{θ} (- \sqrt{η}) p (x | θ = - \sqrt{η}) + p_{θ} (\sqrt{η}) p (x | θ = \sqrt{η})

$p_\theta(-\sqrt \eta)p(x|\theta = -\sqrt \eta)+p_\theta(\sqrt \eta)p(x|\theta = \sqrt \eta)$

Байєс завдає удару знову? Чи не так Каселла та Бергер? Або я помиляюся?

— user56834
джерело

Можливий дублікат властивості Invariance з максимальною оцінкою ймовірності?

— Секст Емпірік

Формальна частина після "Якщо я застосую основні правила теорії ймовірностей до простого випадку $\eta=\tau(\theta)=\theta^2$ " не змінює питання. Питання повністю висвітлено у чудовій відповіді Самуеля Бенідта. Значення ймовірності (і, як наслідок, максимум) не змінюються завдяки картографуванню. Так, вам потрібно бути особливо обережним, якщо відображення Це не зовсім один, але це зовсім інше питання, ніж зміни, що виникають через розподіл ймовірностей, коли ви застосовуєте трансформацію.

— Секст Емпірік

Я розумію ваше розчарування, програміст2134 (& @MartijnWeterings). Однак будь ласка, будьте уважні до свого тону у коментарях. Продуктивні розмови можливі лише тоді, коли ми дотримуємося нашої приємної політики. Якщо ви не зацікавлені в проведенні продуктивних бесід, вам потрібно опублікувати ці питання в іншому місці.

— gung - Відновити Моніку

@gung, Ви абсолютно праві. І я шкодую, що відреагував цим тоном. Я перестану це робити з цього моменту. Вибачте за це. Щодо розмови, я зацікавлений у пошуку продуктивних, але відчув, що реакції людей на пару запитань, які я задавав, переважно контрпродуктивні. Тим не менше, наступного разу я відповім інакше.

— user56834

Дякую. Найкраще припустити, що люди реагують добросовісно. Трапляються (порівняно небагато, ІМХО) випадки, коли людей тут немає, але навіть тоді їх іноді можна примусити приїхати.

— gung - Відновіть Моніку

Як каже Сіань, питання є суперечливим, але я вважаю, що багато людей все ж таки змушені розглядати оцінку максимальної ймовірності з байєсівської точки зору через твердження, яке з'являється в деякій літературі та в Інтернеті: " максимальна ймовірність Оцінка - це окремий випадок байєсівського максимуму після заходу, коли попередній розподіл є рівномірним ".

Я б сказав, що з байєсівської точки зору оцінка максимальної ймовірності та її властивості інваріантності можуть мати сенс, але роль та значення оцінювачів у баєсовій теорії сильно відрізняються від теорії частотистів. І цей конкретний оцінювач зазвичай не дуже розумний з байєсівської точки зору. Ось чому. Для простоти дозвольте мені розглянути одновимірний параметр і одномірні перетворення.

Перш за все два зауваження:

Це може бути корисно розглядати параметр як величину, що живе на загальному колекторі, на якому ми можемо вибрати різні системи координат або одиниці вимірювання. З цієї точки зору репараметризація - це лише зміна координат. Наприклад, температура потрійної точки води однакова, чи виражаємо ми її $T=273.16$ (K), $t=0.01$ (° C), $\theta=32.01$ (° F), або $\eta=5.61$ (логарифмічна шкала). Наші умовиводи та рішення повинні бути інваріантними щодо координації змін. Деякі системи координат можуть бути природнішими за інші, хоча, звичайно.
Імовірності для безперервних величин завжди відносяться до інтервалів (точніше, множин) значень таких величин, ніколи до конкретних значень; хоча в особливих випадках ми можемо розглядати множини, що містять лише одне значення, наприклад. Позначення щільності ймовірності $\mathrm{p}(x)\,\mathrm{d}x$ , в цілісному стилі Рімана, говорить нам, що
(а) ми обрали систему координат $x$ на колекторі параметрів,
(b) ця система координат дозволяє говорити про інтервали однакової ширини,
(c) ймовірність того, що значення лежить у малому інтервалі $\Delta x$ приблизно $\mathrm{p}(x)\,\Delta x$ , де $x$ - точка в інтервалі.
(Як альтернатива можна говорити про базовий захід Лебега $\mathrm{d}x$ і інтервалів однакової міри, але суть однакова.)

Тому твердження типу " $\mathrm{p}(x_1) > \mathrm{p}(x_2)$ "не означає, що ймовірність для $x_1$ більше, ніж для $x_2$ , але та ймовірність того $x$ лежить у невеликому проміжку навколо $x_1$ більша, ніж ймовірність того, що він лежить в інтервалі рівної ширини навколо $x_2$ . Таке твердження залежить від координат.

Давайте подивимось (частоту) точку зору максимальної ймовірності.
З цієї точки зору, говорити про ймовірність значення параметра $x$ просто безглуздо. Повна зупинка. Ми хотіли б знати, що таке справжнє значення параметра та значення $\tilde{x}$ що дає найбільшу ймовірність даним $D$ інтуїтивно має бути не надто далеко від позначки:

\begin{matrix} (*) & \tilde{x} := \arg max_{x} p (D ∣ x) . \end{matrix}

$\tilde{x} := \arg\max_x \mathrm{p}(D \mid x)\tag{*}\label{ML}.$ Це максимально вірогідний оцінювач.

Цей оцінювач вибирає точку на колекторі параметрів і тому не залежить від будь-якої системи координат. Заявлено інакше: кожна точка в колекторі параметрів пов'язана з числом: ймовірність для даних ; ми вибираємо точку, яка має найбільше асоційоване число. Цей вибір не вимагає системи координат або базової міри. Саме з цієї причини цей оцінювач є параметром інваріантним, і ця властивість говорить нам, що це не вірогідність - як бажано. Ця інваріантність залишається, якщо розглянути більш складні перетворення параметрів, і вірогідність профілю, згаданий Сіаном, має повний сенс з цієї точки зору. $D$

Давайте подивимося Байес точки зору
З цієї точки зору вона завжди має сенс говорити про ймовірність безперервного параметра, якщо ми не впевнені в цьому, що обумовлюють даних і інші докази . Запишемо це як Як зазначалося на початку, ця ймовірність відноситься до інтервалів у колекторі параметрів, а не до одиничних точок. $D$

\begin{matrix} (**) & p (x ∣ D) d x \propto p (D ∣ x) p (x) d x . \end{matrix}

$\mathrm{p}(x \mid D)\,\mathrm{d}x \propto \mathrm{p}(D \mid x)\, \mathrm{p}(x)\,\mathrm{d}x.\tag{**}\label{PD}$

В ідеалі нам слід повідомити про нашу невизначеність, вказавши для параметра повний розподіл ймовірностей . Отже, поняття оцінювача є вторинним з байєсівської точки зору. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

Це поняття з'являється тоді, коли нам потрібно вибрати одну точку в колекторі параметрів з якоїсь конкретної мети чи причини, хоча справжня точка невідома. Цей вибір є сферою теорії рішень [1], а вибране значення - це правильне визначення поняття "оцінювач" в баєсівській теорії. Теорія рішення говорить, що спочатку ми повинні ввести функцію корисності яка говорить нам, скільки ми отримуємо, вибираючи точку на колекторі параметрів, коли справжня точка (альтернативно, ми можемо песимістично говорити про функцію втрат). Ця функція матиме різний вираз у кожній системі координат, наприклад і $(P_0,P)\mapsto G(P_0; P)$ $P_0$ $P$ $(x_0,x)\mapsto G_x(x_0; x)$ $(y_0,y)\mapsto G_y(y_0; y)$ ; якщо перетворення координат , два вирази пов'язані [2]. $y=f(x)$ $G_x(x_0;x) = G_y[f(x_0); f(x)]$

Дозвольте відразу наголосити, що коли ми говоримо, скажімо, про квадратичну функцію корисності, ми неявно вибрали конкретну систему координат, як правило, природну для параметра. В іншій системі координат вираз для функції корисності, як правило, не буде квадратичним, але це все одно та сама функція корисності на колекторі параметрів.

Оцінки , пов'язані з функцією корисності є точкою , яка максимізує очікувану корисність даний наші дані . У системі координат його координата - Це визначення не залежить від змін координат: у нових координатах координата оцінювача - . Це випливає з координатної-незалежності і інтеграла. $\hat{P}$ $G$ $D$ $x$

\begin{matrix} (***) & \hat{x} := \arg max_{x_{0}} \int G_{x} (x_{0}; x) p (x ∣ D) d x . \end{matrix}

$\hat{x} := \arg\max_{x_0} \int G_x(x_0; x)\, \mathrm{p}(x \mid D)\,\mathrm{d}x.\tag{***}\label{UF}$

y = f (x)

$y=f(x)$

\hat{y} = f (\hat{x})

$\hat{y}=f(\hat{x})$

G

$G$

Ви бачите, що цей вид інваріантності є вбудованою властивістю байєсівських оцінювачів.

Тепер ми можемо запитати: чи існує функція корисності, яка призводить до оцінки, що дорівнює максимальній ймовірності? Оскільки оцінювач максимальної ймовірності є інваріантним, така функція може існувати. З цієї точки зору, максимальна ймовірність була б безглуздою з байєсівської точки зору, якби вона не була інваріантною!

Функція корисності, яка у певній системі координат дорівнює дельті Дірака, , здається, виконує роботу [3]. Рівняння врожайність , і якщо попередній в рівномірна в координатних , ми отримати максимальну оцінку ймовірності . Крім того, ми можемо розглянути послідовність функцій утиліти з дедалі меншою підтримкою, наприклад, якщо та іншому місці, для [4]. $x$ $G_x(x_0; x) = \delta(x_0-x)$ $\eqref{UF}$ $\hat{x} = \arg\max_{x} \mathrm{p}(x \mid D)$ $\eqref{PD}$ $x$ $\eqref{ML}$ $G_x(x_0; x) = 1$ $\lvert x_0-x \rvert<\epsilon$ $G_x(x_0; x) = 0$ $\epsilon\to 0$

Отже, так, оцінка максимальної вірогідності та її інваріантність можуть мати сенс з байєсівської точки зору, якщо ми математично щедрі і приймемо узагальнені функції. Але саме значення, роль та використання оцінювача в байєсівській перспективі абсолютно відрізняються від тих, що є в частолюдистській перспективі.

Додам також додати, що в літературі, мабуть, є застереження щодо того, чи має функція корисності вище математичний сенс [5]. У будь-якому випадку, корисність такої функції утиліти досить обмежена: як зазначає Джейнес [3], це означає, що "ми дбаємо лише про шанс бути абсолютно правильним; і, якщо ми помиляємось, нас не хвилює як ми помиляємось ».

Тепер розглянемо твердження "максимальна ймовірність - це особливий випадок" max-a-posteriori "з рівномірним попереднім". Важливо відзначити, що відбувається при загальній зміні координат : 1. функція корисності вище передбачає інший вираз, ; 2. попередня щільність у координаті не рівномірна внаслідок якобіанського детермінанта; 3. оцінювач не є максимумом задньої щільності у координаті , оскільки дельта Дірака набула додатковий мультиплікативний коефіцієнт; $y=f(x)$
$G_y(y_0;y) = \delta[f^{-1}(y_0)-f^{-1}(y)] \equiv \delta(y_0-y)\,\lvert f'[f^{-1}(y_0)]\rvert$
$y$
$y$
4. Оцінювач все ж задається максимумом ймовірності в нових, координатах. Ці зміни поєднуються так, що точка оцінювача залишається однаковою у колекторі параметрів. $y$

Таким чином, наведене вище твердження неявно передбачає особливу систему координат. Орієнтовним, більш чітким твердженням може бути таке: "Оцінювач максимальної ймовірності чисельно дорівнює байєсівському оцінювачу, який у деяких системах координат має функцію корисної дельти та рівномірний попередній".

Заключні коментарі
Вищенаведена дискусія неформальна, але її можна зробити точною, використовуючи теорію мір та інтеграцію Стілтелєса.

У літературі Байєса ми також можемо знайти більш неофіційне поняття оцінювача: це число, яке якимось чином "узагальнює" розподіл ймовірностей, особливо коли незручно або неможливо вказати його повну щільність ; див., наприклад, Мерфі [6] або Маккей [7]. Це поняття, як правило, відмежоване від теорії прийняття рішень, і тому може залежати від координат або мовчазно припускати певну систему координат. Але в теоретико-теоретичному визначенні оцінювача те, що не є інваріантним, не може бути оцінником. $\mathrm{p}(x \mid D)\,\mathrm{d}x$

[1] Наприклад, Х. Райффа, Р. Шлайфер: Теорія прикладного статистичного рішення (Wiley, 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: Analysis, Manifolds and Physics. Частина I: Основи (Elsevier 1996) або будь-яка інша хороша книга з диференціальної геометрії.
[3] Е. Т. Джейнс: Теорія ймовірностей: Логіка науки (Cambridge University Press 2003), § 13.10.
[4] Ж.-М. Бернардо, А. Ф. Сміт: Байєсова теорія (Wiley 2000), § 5.1.5.
[5] І. Х. Джермін: Оцінка інваріантної байесистики на колекторах https://doi.org/10.1214/009053604000001273 ; Р. Бассетт, Дж. Дериде: Максимум a posteriori оцінювачі як межа Байєса https://doi.org/10.1007/s10107-018-1241-0 .
[6] КП Мерфі: Машинне навчання: ймовірнісна перспектива (MIT Press 2012), особливо гл. 5.
[7] DJC MacKay: Алгоритми інформаційної теорії, умовиводів та навчання (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .

— pglpm
джерело

Існують способи визначення інваріантних оцінок Баєса у вищезгаданому сенсі шляхом створення функціональної функції втрат, як, наприклад, розбіжність Кульбека-Лейблера між двома щільністю. Ці втрати я назвав суттєвими втратами у статті 1996 року .

— Сіань

З точки зору, що не баєсів, немає визначення величин, таких як тому що є фіксованим параметром і умовна позначення робить не має сенсу. Запропоновану вами альтернативу покладається на попереднє розповсюдження, саме такого підходу, наприклад, запропонованого Казеллою та Бергером, хоче уникнути. Ви можете перевірити ймовірність профілю ключових слів на наявність інших записів. (І сенсу немає, або немає.)

p (x | θ = - \sqrt{η} \lor θ = \sqrt{η})

$p(x|\theta = -\sqrt \eta \lor \theta = \sqrt \eta)$

θ

$\theta$ rightwrong

— Сіань
джерело

Як це суперечить тому, що я говорю? Моя думка полягала в тому, що це безглуздо з байєсівської точки зору . Проблема, яку я маю з рішенням Казелли та Бергера, полягає в тому, що в основному вони придумують абсолютно нове спеціальне визначення вірогідності таким чином, щоб було досягнуто їх бажаного висновку. Якби можна було б послідовно визначити ймовірність, а саме ту, яку я дав вище, то висновок був би іншим. Звичайно, Казелла та Бергер можуть захотіти уникати приорів, але єдиний спосіб зробити це - придумати спеціальну зміну визначення ймовірності.

— user56834

Якщо ви хочете зберегти байєсівську перспективу, питання є суперечливим, оскільки більшість не-баєсівських результатів не матимуть сенсу або не "узгоджуватимуться" з байесівськими принципами.

— Сіань