Нехай відсортовані дані будуть . Щоб зрозуміти емпіричний CDF G , розглянемо одне зі значень x i --let, називаємо його γ - і припустимо, що деяке число k з x i менше, ніж γ, а t ≥ 1 з x i дорівнює γ . Виберіть інтервал [ α , β ], у якому з усіх можливих значень даних лише γх1≤ x2≤ ⋯ ≤ xнГхiγкхiγt ≥ 1хiγ[ α , β]γз'являється. Тоді, за визначенням, у цьому інтервалі має постійне значення k / n для чисел, менших від γ, і переходить до постійного значення ( k + t ) / n для чисел, більших за γ .Гк / нγ( k + t ) / nγ
Розглянемо внесок у з інтервалу [ α , β ] . Хоча h не є функцією - це точкова міра розміру t / n при γ - інтеграл визначається за допомогою інтеграції частин для перетворення його в інтеграл чесного доброго. Зробимо це через інтервал [ α , β ] :∫б0x h ( x ) dх[ α , β]годт / нγ[ α , β]
∫βαx h ( x ) dx = ( x G ( x ) ) |βα- ∫βαG ( x ) dx = ( βG ( β) - α G ( α ) ) - ∫βαG ( x ) dх .
Новий інтегранд, хоча і розривний при , є інтегральним . Його значення легко знайти, розбиваючи область інтеграції в частини, що передують і слідуючи за стрибком у G :γГ
∫βαG ( x ) dx = ∫γαG ( α ) dx + ∫βγG ( β) dx = ( γ- α ) G ( α ) + ( β- γ) G ( β) .
Підставляючи це до вищесказаного і згадуючи виходитьG ( α ) = k / n , G ( β) = ( k + t ) / n
∫βαx h ( x ) dx = ( βG ( β) - α G ( α ) ) - ( ( γ)- α ) G ( α ) + ( β- γ) G ( β) ) = γтн.
Іншими словами, цей інтеграл помножує розташування (вздовж осі ) кожного стрибка на розмір цього стрибка. Розмір стрибка становитьХ
тн= 1н+ ⋯ + 1н
з одним доданком для кожного зі значень даних, що дорівнює . Якщо додати внесок від усіх таких стрибків G, це показуєγГ
∫б0x h ( x ) dx = ∑я :0 ≤ xi≤ b( хi1н) = 1н∑хi≤ bхi.
Ми можемо назвати це "частковою середньою", бачачи, що воно дорівнює разів частковою сумою. (Зверніть увагу, що це не очікування. Це може бути пов'язано з очікуванням версії базового розподілу, яка врізана в інтервал [ 0 , b ] : ви повинні замінити коефіцієнт 1 / n на 1 / м, де m - кількість значень даних у межах [ 0 , b ] .)1 / н[ 0 , б ]1 / н1 / мм[ 0 , б ]
Давши , ви хочете знайти b, для якого 1кб1н∑хi≤ bхi= k .кj
1н∑i = 1j - 1хi≤ k < 1н∑i = 1jхi,
б[ хj - 1, хj)б
R
виконує обчислення часткової суми cumsum
і знаходить, де воно перетинає будь-яке задане значення, використовуючи which
сімейство пошукових запитів, як у:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
Вихід у цьому прикладі даних, отриманих із експоненціального розподілу, є
Верхня межа лежить між 0,39 і 0,57
0,1 = ∫б0х експ( - х ) dх ,0,531812
Г