Що саме є альфа в дистрибуті Діріхле?


26

Я досить новачок у байєсівській статистиці, і я натрапив на виправлену кореляційну міру, SparCC , яка використовує процес Діріхле у підставці його алгоритму. Я намагався пройти алгоритм поетапно, щоб зрозуміти, що відбувається, але я не впевнений, що саме робить alphaвекторний параметр при розподілі Діріхле і як він нормалізує alphaвекторний параметр?

Для реалізації Pythonвикористовується NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Документи кажуть:

альфа: масив Параметр розподілу (k розмірність для вибірки розмірності k).

Мої запитання:

  1. Як alphasвпливають на розподіл ?;

  2. Як alphasнормалізуються істоти ?; і

  3. Що відбувається, коли alphasне є цілими числами?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

введіть тут опис зображення


6
Чи є у вас проблеми з записом у Вікіпедії в цьому дистрибутиві ?
Сіань

2
Вибачте, я не думаю, що я це правильно сформулював. Я розумію, що таке розподіл ймовірностей / pdf / pmf, але мене збентежило те, як відбувається нормалізація. З вікіпедії здається, що нормалізація відбувається через гамма-функції після . Я чув, що це називається розподілом по дистрибутивам, і це важко зрозуміти з еквівалентів у Вікіпедії. xiα1
O.rka

1
Якщо ви нормалізуєте альфа, ви отримаєте середнє значення розподілу. Якщо ви нормалізуєте розподіл, ви гарантуєте, що його інтеграл над його підтримкою дорівнює 1, і що таким чином він є дійсним розподілом ймовірності.
Eskapp

1
Дистрибуція Діріхле - це розподіл по симплексу, отже, розподіл над розподілами кінцевої підтримки. Якщо ви націлені на розподіл по безперервному розповсюдженню, вам слід поглянути на процес Діріхле.
Сіань

Відповіді:


67

Розподіл Діріхле - це багатофакторний розподіл ймовірностей, який описує змінні , так що кожен та , що параметризується вектор позитивних значень параметрів . Параметри не повинні бути цілими числами, вони повинні мати лише додатні дійсні числа. Вони ні в якому разі не «нормалізуються», вони є параметрами цього розподілу.X 1 , , X k x i( 0 , 1 ) N i = 1 x i = 1k2X1,,Xkxi(0,1)i=1Nxi=1α=(α1,,αk)

Розподіл Діріхле - це узагальнення бета-розподілу на кілька вимірів, тому можна почати з вивчення бета-розподілу. Бета - це одноманітне розподіл випадкової величини параметризованої параметрами та . Хороша інтуїція про це приходить , якщо згадати , що це пов'язаний перед для біноміального розподілу , і якщо ми припускаємо , бета до параметризрвані і для параметра ймовірності біноміального розподілу по , то заднє розподіл також параметр бета-розподілу, параметризований користувачемα β α β p p α = α + кількість успіхів β = β + кількість відмов α βX(0,1)αβαβppα=α+number of successes і . Таким чином, ви можете думати про та як про псевдо-рахунки (їм не потрібно бути цілими числами) успіхів та невдач (перевірте також цю нитку ).β=β+number of failuresαβ

У випадку розподілу Діріхле це кон'югат , який є попереднім для мультиноміального розподілу . Якщо у випадку біноміального розподілу ми можемо думати про це з точки зору малювання білих та чорних кульок із заміною урни, то у випадку мультиноміального розподілу ми малюємо із заміни кульок, що з’являються у кольорах, де кожен із кольорів з куль можна намалювати з ймовірностями . Розподіл Діріхле - це сполучений параметр для параметрів ймовірностей та параметрів можна вважати псевдорахунком кульок кожного кольору, що приймаються апріорноk p 1 , , p k p 1 , , p k α 1 , , α k α 1 , , α k α 1 + n 1 , , α k + n kNkp1,,pkp1,,pkα1,,αk(але слід також прочитати про підводні камені таких міркувань ). У диріхле-мультиноміальній моделі оновлюються шляхом підсумовування їх із спостережуваними підрахунками у кожній категорії: аналогічно, як у випадку бета-біноміальної моделі.α1,,αkα1+n1,,αk+nk

Чим більше значення , тим більша "вага" і більша кількість загальної "маси" присвоюється йому (згадаймо, що в загальній складності воно повинно бути ). Якщо всі рівні, розподіл симетричний. Якщо , це можна розглядати як противагу, що відштовхує до крайнощів, тоді як, коли він високий, він притягує до деякого центрального значення (центрального в тому сенсі, що всі точки зосереджені навколо нього, а не в відчуття, що воно симетрично центральне). Якщо , то точки розподіляються рівномірно.αiXix1++xk=1αiαi<1xixiα1==αk=1

Це можна побачити на графіках нижче, де ви можете бачити триваріантні розподіли Діріхле (на жаль, ми можемо створити розумні графіки лише до трьох вимірів), параметризовані за допомогою (a) , (b) , (c) , (г) .α 1 = α 2 = α 3 = 10 α 1 = 1 , α 2 = 10 , α 3 = 5 α 1 = α 2 = α 3 = 0,2α1=α2=α3=1α1=α2=α3=10α1=1,α2=10,α3=5α1=α2=α3=0.2

Чотири різних зразки з дистрибуції Діріхле

Розподіл Діріхле іноді називають "розподілом по розподілах" , оскільки його можна розглядати як розподіл самих ймовірностей. Зауважте, що оскільки кожен та , то узгоджуються з першою та другою аксіомами ймовірності . Таким чином, ви можете використовувати розподіл Диріхле як розподіл ймовірностей для дискретних подій, описаних дистрибутивами, такими як категоричні або багаточлени . Це не такk i = 1 x i = 1 x i kxi(0,1)i=1kxi=1xiвірно, що це розподіл на будь-які розподіли, наприклад, це не пов'язано з ймовірністю безперервних випадкових змінних або навіть деяких дискретних (наприклад, розподілена випадкова величина Пуассона описує ймовірності спостереження значень, що є будь-якими натуральними числами, тому використовувати a Розподіл Діріхле за їхніми ймовірностями вам знадобиться нескінченна кількість випадкових величин ).k


2
Неймовірне пояснення
O.rka

14

Відмова: Я ніколи раніше не працював з цим розповсюдженням. Ця відповідь ґрунтується на цій статті у вікіпедії та моїй інтерпретації.


Розподіл Діріхле - це багатофакторний розподіл ймовірностей із властивостями, подібними до розподілу Бета.

PDF визначається наступним чином:

{x1,,xK}1B(α)i=1Kxiαi1

з , та .K2xi(0,1)i=1Kxi=1

Якщо ми подивимось на тісно пов’язаний бета-розподіл:

{x1,x2(=1x1)}1B(α,β)x1α1x2β1

ми можемо бачити, що ці два розподіли однакові, якщо . Тож спершу грунтуємося на цій інтерпретації, а потім узагальнюємо до .K=2K>2


У статистиці Баєса Бета-розподіл використовується як кон'югат, попередній для біноміальних параметрів (Див. Розподіл бета ). Попередній може бути визначений як попередні знання про та (або відповідно до розподілу Діріхле та ). Якщо якісь - то біноміальні проби , тобто успіхи і невдача, заднє розподіл потім наступний чином : і . (Я не буду це робити, оскільки це, мабуть, одне з перших речей, які ви дізнаєтесь із байєсівської статистики).β α 1 α 2 A B α 1 , p o s = α 1 + A α 2 , p o s = α 2 + Bαβα1α2ABα1,pos=α1+Aα2,pos=α2+B

Отже, розподіл Beta представляє деякий задній розподіл на та , який можна інтерпретувати як ймовірність успіхів і невдач відповідно у двочленному розподілі. І чим більше у вас даних ( і ), тим вузькішим буде цей задній розподіл.x 2 ( = 1 - x 1 ) A Bx1x2(=1x1)AB


Тепер ми знаємо, як працює розподіл для , ми можемо узагальнити його для роботи для багаточленного розподілу замість двочленного. Що означає, що замість двох можливих результатів (успіх чи невдача) ми дозволимо отримати результати (див., Чому він узагальнює Beta / Binom, якщо ?) Кожен з цих результатів матиме ймовірність , яка дорівнює 1, як це можливо.K K = 2 K x iK=2KK=2Kxi

α 1 α 2 x iαiТоді виконує аналогічну роль як та в дистрибутиві Beta, як попереднє для і оновлюється аналогічно.α1α2xi

Тож тепер, щоб перейти до ваших питань:

Як alphasвпливають на розподіл?

Розподіл обмежується обмеженнями та . визначити , які частини - мірного простору отримати максимальну масу. Ви можете бачити це на цьому зображенні (не вкладаючи його сюди, тому що я не є власником зображення). Чим більше даних у задній частині (використовуючи цю інтерпретацію), тим вище , тим більш впевненим ви є значення або ймовірності для кожного з результатів. Це означає, що щільність буде більш концентрованою.xi(0,1)i=1Kxi=1αiKi=1Kαixi

Як alphasнормалізуються істоти?

Нормалізація розподілу (переконавшись, що інтеграл дорівнює 1) проходить через термін :B(α)

B(α)=i=1KΓ(αi)Γ(i=1Kαi)

Знову ж таки, якщо ми подивимось на випадок ми можемо побачити, що нормалізуючий коефіцієнт такий же, як у бета-розподілі, який використовував наступне:K=2

B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)

Це поширюється на

B(α)=Γ(α1)Γ(α2)Γ(αK)Γ(α1+α2++αK)

Що відбувається, коли альфа не є цілими числами?

Інтерпретація не змінюється для , але, як ви бачите на зображенні, яке я зв'язав раніше , якщо маса розподілу накопичується в краях діапазону для . з іншого боку, має бути цілим числом і .α i < 1 x i K K 2αi>1αi<1xiKK2


1
Дякую за це Ваше пояснення було дуже корисним. Я б хотів, щоб я міг обох їх позначити правильними.
O.rka
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.