Як зробити вибірку з дискретного (категоричного) розподілу в просторі журналу?


12

Припустимо, у мене дискретний розподіл, визначений вектором таким, що категорія буде намальована з вірогідністю тощо. Потім я виявляю, що деякі значення в розподілі настільки малі, що вони переповнюють представлення числа плаваючої крапки мого комп'ютера, тому, щоб компенсувати, я виконую всі свої обчислення в журнальному просторі. Тепер у мене є векторний простору .θ0,θ1,...,θN0θ0log(θ0),log(θ1),...,log(θN)

Чи можливо вибірку з розподілу таким чином, щоб початкові ймовірності мали місце (категорія намальована з ймовірністю ), але не залишаючи місця журналу? Іншими словами, як зробити вибірку з цього розподілу без підтоків?iθi

Відповіді:


15

Можна вибирати з категоричного розподілу задані ймовірності журналу, не залишаючи простору журналу за допомогою трюку Gumbel-max . Ідея полягає в тому, що якщо вам надаються ненормалізовані ймовірності журналу , які можна перевести на належні ймовірності за допомогою функції softmaxα1,,αk

pi=exp(αi)jexp(αj)

то для вибірки з такого розподілу можна використовувати той факт, що якщо є незалежними вибірками, взяті зі стандартного розподілу Gumbel, параметризованого місцем ,g1,,gkG(0)m

F(Gg)=exp(exp(g+m))

тоді можна показати (див. посилання нижче), що

argmaxi{gi+αi}exp(αi)jexp(αj)maxi{gi+αi}G(logiexp{αi})

і ми можемо взяти

z=argmaxi{gi+αi}

як зразок із категоричного розподілу, параметризованого ймовірностями . Цей підхід було детальніше описано у публікаціях блогу Райана Адамса та Лорана Діна , крім того, Кріс Дж. Маддісон, Даніель Тарлоу та Том Мінка виступили з доповіддю ( слайди ) на конференції " Нейронні системи обробки інформації" (2014) та написали документ під назвою " A * Вибірка, що узагальнила ці ідеї (див. Також Maddison, 2016; Maddison, Mnih and Teh, 2016; Jang and Poole, 2016), які посилаються на Yellott (1977), згадуючи його як той, хто вперше описав цю властивість.p1,,pk

Реалізувати це досить просто за допомогою вибірки зворотного перетворення , взявши де виводиться з рівномірного розподілу на . Це, звичайно, не найефективніші алгоритми вибірки з категоричного розподілу, але це дозволить вам залишитися в лог-просторі, що може бути перевагою в деяких сценаріях.gi=log(logui)ui(0,1)


Маддісон, Дж. Дж., Тарлоу, Д., Мінка, Т. (2014). * Вибірки. [В:] Успіхи в системах нейронної обробки інформації (с. 3086-3094).

Єллотт, JI (1977). Зв'язок між аксіомою вибору Люсі, теорією Терстона щодо порівняльного судження та подвійним експоненціальним розподілом. Журнал математичної психології, 15 (2), 109-144.

Maddison, CJ, Mnih, A., & Teh, YW (2016). Розподіл конкрету: безперервна релаксація дискретних випадкових змінних. переддрук arXiv arXiv: 1611.00712.

Jang, E., Gu, S., & Poole, B. (2016). Категорична перепараметризація за допомогою Gumbel-Softmax. переддрук arXiv arXiv: 1611.01144.

Маддісон, CJ (2016). Модель процесу Пуассона для Монте-Карло. arXiv передрук arXiv: 1602.05986.


5

Ось один поширений спосіб уникнути переливу / переливу.

Нехай .m=maxilog(θi)

Нехай .θi=exp(log(θi)m)

Ви можете зробити вибірку з .θ=[θ1,θ2,...]


1
Це працює до тих пір, поки різниця між будь-яким одним значенням і максимальним значенням не буде занадто великою --- коли це станеться, то expможна втратити точність, що призводить до розподілів типу [1.0, 3.45e-66, 0.0, 7.54e-121] . Я хотів би протриматися за деяку відповідь, яка є надійною навіть у такому випадку. Але наразі я підтримую вашу відповідь.
Джош Хансен
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.