Можна вибирати з категоричного розподілу задані ймовірності журналу, не залишаючи простору журналу за допомогою трюку Gumbel-max . Ідея полягає в тому, що якщо вам надаються ненормалізовані ймовірності журналу , які можна перевести на належні ймовірності за допомогою функції softmaxα1,…,αk
pi=exp(αi)∑jexp(αj)
то для вибірки з такого розподілу можна використовувати той факт, що якщо є незалежними вибірками, взяті зі стандартного розподілу Gumbel, параметризованого місцем ,g1,…,gk∼G(0)m
F(G≤g)=exp(−exp(−g+m))
тоді можна показати (див. посилання нижче), що
argmaxi{gi+αi}maxi{gi+αi}∼exp(αi)∑jexp(αj)∼G(log∑iexp{αi})
і ми можемо взяти
z=argmaxi{gi+αi}
як зразок із категоричного розподілу, параметризованого ймовірностями . Цей підхід було детальніше описано у публікаціях блогу Райана Адамса та Лорана Діна , крім того, Кріс Дж. Маддісон, Даніель Тарлоу та Том Мінка виступили з доповіддю ( слайди ) на конференції " Нейронні системи обробки інформації" (2014) та написали документ під назвою " A * Вибірка, що узагальнила ці ідеї (див. Також Maddison, 2016; Maddison, Mnih and Teh, 2016; Jang and Poole, 2016), які посилаються на Yellott (1977), згадуючи його як той, хто вперше описав цю властивість.p1,…,pk
Реалізувати це досить просто за допомогою вибірки зворотного перетворення , взявши де виводиться з рівномірного розподілу на . Це, звичайно, не найефективніші алгоритми вибірки з категоричного розподілу, але це дозволить вам залишитися в лог-просторі, що може бути перевагою в деяких сценаріях.gi=−log(−logui)ui(0,1)
Маддісон, Дж. Дж., Тарлоу, Д., Мінка, Т. (2014). * Вибірки. [В:] Успіхи в системах нейронної обробки інформації (с. 3086-3094).
Єллотт, JI (1977). Зв'язок між аксіомою вибору Люсі, теорією Терстона щодо порівняльного судження та подвійним експоненціальним розподілом. Журнал математичної психології, 15 (2), 109-144.
Maddison, CJ, Mnih, A., & Teh, YW (2016). Розподіл конкрету: безперервна релаксація дискретних випадкових змінних. переддрук arXiv arXiv: 1611.00712.
Jang, E., Gu, S., & Poole, B. (2016). Категорична перепараметризація за допомогою Gumbel-Softmax. переддрук arXiv arXiv: 1611.01144.
Маддісон, CJ (2016). Модель процесу Пуассона для Монте-Карло. arXiv передрук arXiv: 1602.05986.
exp
можна втратити точність, що призводить до розподілів типу [1.0, 3.45e-66, 0.0, 7.54e-121] . Я хотів би протриматися за деяку відповідь, яка є надійною навіть у такому випадку. Але наразі я підтримую вашу відповідь.