Наприклад, припустимо, що у вас є впорядкований набір, у якому кожна позиція має рівну ймовірність бути будь-якою з малих літер алфавіту. У цьому випадку я змушу замовлений набір містити елементів.1000
# generate a possible sequence of letters
s <- sample(x = letters, size = 1000, replace = TRUE)
Виявляється, якщо кожне з позицій впорядкованого набору слідує рівномірного розподілу на малі літери алфавіту, то відстань між двома входженнями однієї і тієї ж літери слідує за геометричним розподілом з параметром . У світлі цієї інформації давайте обчислимо відстань між послідовними зустрічами однієї і тієї ж літери.р = 1 / 26
# find the distance between occurences of the same letters
d <- vector(mode = 'list', length = length(unique(letters)))
for(i in 1:length(unique(letters))) {
d[[i]] <- diff(which(s == letters[i]))
}
d.flat <- unlist(x = d)
Давайте розглянемо гістограму відстаней між подіями однієї і тієї ж літери та порівняємо її з функцією маси ймовірностей, пов’язаною з геометричним розподілом, згаданим вище.
hist(x = d.flat, prob = TRUE, main = 'Histogram of Distances', xlab = 'Distance',
ylab = 'Probability')
x <- range(d.flat)
x <- x[1]:x[2]
y <- dgeom(x = x - 1, prob = 1/26)
points(x = x, y = y, pch = '.', col = 'red', cex = 2)
Червоні точки представляють фактичну функцію масової ймовірності відстані, яку ми очікували, якби кожне з позицій упорядкованого набору слідувало рівномірному розподілу по буквах, а смужки гістограми представляють емпіричну функцію масової ймовірності відстані, пов'язаної з упорядкованою набір.
Сподіваємось, що зображення, подане вище, переконує, що геометричний розподіл є відповідним.
Знову ж таки, якщо кожне положення впорядкованого набору слідує за рівномірним розподілом літер, ми очікуємо, що відстань між входженнями однієї і тієї ж літери слід геометричного розподілу з параметром . То наскільки подібними є очікуваний розподіл відстаней та емпіричний розподіл різниць? Бхаттачарья Відстань між двома дискретними розподілами є , коли розподіл точно так же , і прагне до як розподілу стають все більш різними.0 ∞р = 1 / 260∞
Як d.flat
вище порівнюється із очікуваним геометричним розподілом у розрізі відстані Бхаттачарія?
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i - 1,
prob = 1/26))
}
b.dist <- -1 * log(x = b.dist)
Відстань Бхаттачарія між очікуваним геометричним розподілом та емпіричним розподілом відстаней становить приблизно , що досить близько до .00,0260
Редагувати:
Замість того, щоб просто констатувати, що спостерігається вище відстань Бхаттачарія ( ) досить близька до , я думаю, що це хороший приклад, коли моделювання стане в нагоді. Питання зараз таке: як спостерігається вище відстань Бхаттачарія порівняно з типовими відстанями Бхаттачарія, якщо кожне положення впорядкованого набору є рівномірним щодо букв? Давайте генеруємо таких упорядкованих наборів та обчислимо кожну їх відстань Бхаттачарія від очікуваного геометричного розподілу.0 10 , 0000,026010 , 000
gen.bhat <- function(set, size) {
new.seq <- sample(x = set, size = size, replace = TRUE)
d <- vector(mode = 'list', length = length(unique(set)))
for(i in 1:length(unique(set))) {
d[[i]] <- diff(which(new.seq == set[i]))
}
d.flat <- unlist(x = d)
x <- range(d.flat)
x <- x[1]:x[2]
b.dist <- 0
for(i in x) {
b.dist <- b.dist + sqrt((sum(d.flat == i) / length(d.flat)) * dgeom(x = i -1,
prob = 1/length(unique(set))))
}
b.dist <- -1 * log(x = b.dist)
return(b.dist)
}
dist.bhat <- replicate(n = 10000, expr = gen.bhat(set = letters, size = 1000))
Тепер ми можемо обчислити ймовірність дотримання відстані Бхаттачарія, спостережувану вище, або ще одну крайність, якщо впорядкований набір був сформований таким чином, що кожне його положення слід рівномірно розподіляти по буквах.
p <- ifelse(b.dist <= mean(dist.bhat), sum(dist.bhat <= b.dist) / length(dist.bhat),
sum(dist.bhat > b.dist) / length(dist.bhat))
У цьому випадку ймовірність виявляється приблизно .0,38
Для повноти наступне зображення є гістограмою змодельованих дистанцій Бхаттачарія. Я думаю, що важливо усвідомити, що ви ніколи не будете дотримуватися відстані Bhattacharyya оскільки замовлений набір має кінцеву довжину. Вище максимальна відстань між будь-якими двома входженнями листа становить не більше .9990999 рік