Розподіл на підмножини


9

Мені цікаво, чи є якісь стандартні розподіли на підмножини цілих чисел . Еквівалентно, ми могли б виразити це як розподіл на довжині вектора бінарних результатів, наприклад, якщо то відповідає вектору .{1,2,...,J}JJ=5{1,3,5}(1,0,1,0,1)

В ідеалі те, що я шукаю, - це деякий розподіл , що походить із сім'ї, індексованої кінцевим розмірним параметром , яка розподілила б його масу таким чином, щоб два двійкові вектори і мали подібний ймовірність, якщо вони "близько" разом, тобто і мають однакові ймовірності. Дійсно, те, що я маю надію зробити, є пріоритетом на таким чином, що якщо я знаю, є досить великим, то , ймовірно, великий відносно векторів, далеких від .νθ()θr1r2r1=(0,0,1,0,1)r2=(0,0,1,1,1)θνθ(r1)νθ(r2)r1

Однією з стратегій, яка спадає на думку, буде поставити метрику чи якусь іншу міру дисперсії на на а потім взяти або щось подібне. Явним прикладом буде аналогічно нормальному розподілу. Це добре, але я сподіваюся, що є щось стандартне і піддається байєсівському аналізу; з цим я не можу записати нормалізуючу константу.dθ{0,1}Jνθ(r)exp(dθ(r,μ))exp{rμ2/(2σ2)}


Вибірка підмножини є основною проблемою методології опитування.
Стефан Лоран

@ Стефан впевнений, але я думаю, що моя проблема відрізняється тим, що у мене є додаткова бажана структура, яку я хотів би, щоб мій розподіл відобразив. Можливо, фразування питання стосовно підмножини було поганою ідеєю, оскільки я маю неясне уявлення про відстань, що працює для мене.
хлопець

Ви мали на увазі написати "... тоді , мабуть, малий ..."? Що стосується норми, що нормалізується, розглянемо використання відстані Хеммінга для метрики: для сімейств розподілів розміщення розмірів ви можете обчислити цю константу як суму лише доданків. Більше того, всі такі сімейства, які відповідають вашим критеріям, можуть бути описані лише дискретними параметрами (для місця розташування) та постійними параметрами. vθ(r2)J+1JJ
whuber

@whuber ні, я мав на увазі великий. Я хочу, щоб розподілив свою масу навколо точок, близьких один до одного. Напевно, було б більш придатним формулювати питання як розміщення розподілу по вершинах гіперкуби. Я розглядав дистанцію Хеммінга (яка, мабуть, така сама, як у моєму випадку); Я, мабуть, хотів би змінити його як, і я думаю, мабуть, доведеться зробити якийсь MCMC, щоб взяти вибірку з такого розподілу. νθ()L1|riμiσi|
хлопець

О, я бачу зараз. Але це не те, що ви спочатку говорили. Наприклад, у вашій характеристиці, якщо є великим, а - це набір векторів, "віддалених" від , а - будь-який вектор, що не знаходиться в , то також повинен бути "ймовірно" бути великим. Але "недалеко" і "близько" не означають абсолютно однакових речей. Було б простіше - і більш внутрішньо послідовно - перефразовувати умову, як це було у вашому коментарі. Але ні, вам не потрібно MCMC для вибірки з розподілу за масштабами локації на основі відстаней Хеммінга: є набагато ефективніші способи. ν(r1)Rr1r2Rν(r2)
whuber

Відповіді:


6

Ви можете віддати перевагу сімей місцеположень на основі відстані Хеммінга через їх багатство, гнучкість та обчислюваність.


Позначення та визначення

Нагадаємо , що у вільному скінченномірному модулі з базисом , то відстані Хеммінга між двома векторами і є кількість місць де .V(e1,e2,,eJ) δHv=v1e1++vJeJw=w1e1++wJeJiviwi

З огляду на будь-яке походження , розділення відстані Хеммінга на сфери , , де . Коли в заземленому кільці є елементів, має елементів, а має елементи. (Це негайно випливає із спостереження, що елементи відрізняються від в саме місцях, з яких єv0VVSi(v0)i=0,1,,JSi(v0)={wV | δH(w,v0)=i}nVnJSi(v)(Ji)(n1)iSi(v)vi(Ji)можливості - і що для кожного місця є незалежно вибір значень.)n1

Африканський переклад у діє, природно, на його розповсюдження, щоб дати родинам розташування. Зокрема, коли - будь-який розподіл на (що означає трохи більше , для всіх і ) і - будь-який елемент , тоді також є розподілом деVfVf:V[0,1]f(v)0vVvVf(v)=1wVf(w)

f(w)(v)=f(vw)

для всіх . Розташування сім'ї розподілів інваріантна щодо цієї дії: означає для всіх .vV ΩfΩf(v)ΩvV

Будівництво

Це дозволяє нам визначити потенційно цікаві та корисні сім’ї дистрибутивів, вказавши їх форми в одному фіксованому векторі , який для зручності я вважаю , і переклад цих "генеруючих розподілів" під дією щоб отримати повне сімейство . Щоб досягти бажаної властивості, щоб має мати порівнянні значення в сусідніх точках, просто вимагайте цього властивості всіх генеруючих розподілів.v0=(0,0,,0)VΩf

Щоб побачити, як це працює, давайте побудуємо сімейство локацій усіх розподілів, які зменшуються зі збільшенням відстані. Оскільки можливі лише відстані Hamming, розглянемо будь-яку зменшувану послідовність негативних дійсних чисел = . ВстановитиJ+1a0a0a1aJ0

A=i=0J(n1)i(Ji)ai

і визначте функцію byfa:V[0,1]

fa(v)=aδH(0,v)A.

Тоді, як нескладно перевірити, є розподілом на . Крім того, тоді і лише тоді, коли є додатним кратним (як вектори в ). Таким чином, якщо нам подобається, ми можемо стандартизувати до .faVfa=faaaRJ+1aa0=1

Відповідно, ця конструкція дає явну параметризацію всіх таких розподільних інваріантних розподілів, які зменшуються з відстані Хеммінга: будь-який такий розподіл має форму для деякої послідовності і деякий вектор .fa(v)a=1a1a2aJ0vV

Ця параметризація може забезпечити зручну специфікацію пріорів: розподіліть їх на пріоритетне місце розташування та пріоритетне на форму . (Звичайно, можна розглянути більший набір пріорів, де розташування та форма не залежать, але це було б складнішим завданням.)va

Генерація випадкових значень

Один із способів вибірки з полягає в етапах шляхом розподілу факторів на розподіл по сферичному радіату та інший умовний розподіл на кожну сферу:fa(v)

  1. Накресліть індекс з дискретного розподілу на заданому ймовірностями , де визначено як раніше .i{0,1,,J}(Ji)(n1)iai/AA

  2. Індекс відповідає набору векторів, що різняться від в саме місцях. Таким чином, вибрати ті розміщую з можливі підмножини, даючи кожну рівну ймовірність. (Це тільки зразок Нижні індекси з без заміни.) Нехай це підмножина місце записується .ivii(Ji)iJ iI

  3. Намалюйте елемент , незалежно вибравши значення рівномірно з набору скалярів, не рівних для всіх інакше встановіть . Еквівалентно створіть вектор , вибравши рівномірно з ненульових значень, коли інакше встановивши . Встановіть .wwjvjjIwj=vjuujjIuj=0w=v+u

Крок 3 є непотрібним у двійковому випадку.


Приклад

Ось Rреалізація для ілюстрації.

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

Як приклад його використання:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

На це знадобилося секунди, щоб отримати елементів iid з розподілу де , (двійковий випадок), і експоненціально зменшується.0.2104fa(v)J=10n=2v=(1,1,,1)a=(211,210,,21)

(Цей алгоритм не вимагає, щоб зменшувався; таким чином, він буде генерувати випадкові величини з будь-якого сімейства місцеположень, а не лише з одномодальних.)a


Дякую за це! Відстань Хеммінга в цьому випадку становить лише в обмежених вершинами куба; у цьому контексті відстань Хеммінга діє ізотропно. Якщо відійти від цього, я думаю, ускладнює ці речі, оскільки у мене більше ніж різних значень для міри відстані? Якісь загальні коментарі до цього? L1RJJ
хлопець

Так: вибір функцій відстані залежатиме від того, що представляють значення в . Оскільки питання було сформульовано абстрактно, нам насправді нічого не слід продовжувати формувати думки про те, який би був хороший вибір. Відстань Хеммінга буде доречною для номінальних значень, можливо, і в інших випадках, але інші відстані можуть працювати краще, коли для множини властиво відчуття відстані . У двійковому випадку важко узагальнити відстані Хеммінга: вони вже досить загальні. {1,2,,n}{1,2,,n}n=2
whuber

1

Вибірка з k-детермінантного точкового процесу моделює розподіл за підмножинами, що заохочує різноманітність, таким чином, що подібні елементи рідше трапляються разом у вибірці. Зверніться до вибіркового відбору процесу з детермінантною точкою від Алекса Кулеші, Бена Таскара.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.