Як я можу аналітично довести, що випадкове ділення суми призводить до експоненціального розподілу (наприклад, доходу та багатства)?


36

У цій нинішній статті в НАУКІ пропонується наступне:

Припустимо, ви випадковим чином розділите 500 мільйонів доходу серед 10000 людей. Є лише один спосіб надати кожному рівну, 50 000 частку. Тож якщо ви долі заробляєте випадковим чином, рівність навряд чи є. Але є незліченна кількість способів дати кілька людей багато грошей, а багатьом мало або нічого. Насправді, з огляду на всі способи, як можна було б розкрити дохід, більшість з них виробляє експоненціальний розподіл доходу.

Я зробив це за допомогою наступного коду R, який, начебто, підтверджує результат:

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45, xlim = c(0, quantile(d, 0.99)))

fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", pch=16, add = TRUE)

введіть тут опис зображення

Моє запитання
Як я можу аналітично довести, що отриманий розподіл справді експоненціальний?

Додаток
Дякую за відповіді та коментарі. Я подумав про проблему і придумав такі інтуїтивні міркування. В основному трапляється таке (Остерігайтеся: надмірне спрощення вперед): Ви наче йдете за сумою і кидаєте (упереджену) монету. Щоразу, коли ви отримуєте, наприклад, голови, ви ділите суму. Ви поширюєте отримані розділи. У дискретному випадку, коли метання монети відбувається за біноміальним розподілом, перегородки розподіляються геометрично. Неперервними аналогами є розподіл пуассона та експоненціальний розподіл відповідно! (З тих же міркувань також стає зрозумілим, чому геометричний та експоненціальний розподіл мають властивість безпам’ятності - адже монета також не має пам’яті).


3
Якщо ви віддаєте гроші по черзі, існує багато способів розподілити їх рівномірно, і ще багато, щоб майже рівномірно розподілити їх (наприклад, розподіл, який майже нормальний, із середнім значенням та стандартним відхиленням, близьким до 224 )50000224
Генрі

@Henry: Скажіть, будь ласка, трохи детальніше цю процедуру. Особливо, що ви маєте на увазі під «один за одним»? Можливо, ви могли навіть надати свій код. Дякую.
vonjd

фондж: Почніть з 500 мільйонів монет. Виділіть кожну монету незалежно та випадковим чином між 10 тис. Особин з однаковою ймовірністю. Додайте скільки монет отримує кожна людина.
Генрі

@ Генрі: Первісне твердження полягало в тому, що більшість способів розподілити дохід грошових коштів експоненціальним розподілом. Способи розподілу грошових коштів і способи розподілу монет не ізоморфні, так як існує тільки один спосіб розподілу $ 500000000 рівномірно серед 10000 людей (дати кожні $ 50000) , але є 500000000! / ((50000!) ^ 10000) шлях розповсюдження 50 000 монет на кожну з 10 000 осіб.
supercat

1
@ Генрі У сценарії, який ви описали у верхньому коментарі, з самого початку встановлено, що кожна людина має однакову ймовірність отримати монету. Ця умова ефективно приділяє величезну вагу нормальному розповсюдженню, а не однаково розглядає різні способи розподілу монет.
higgsss

Відповіді:


27

Для спрощення проблеми розглянемо випадок, коли дозволені значення частки кожної людини дискретні, наприклад, цілі числа. Еквівалентно також можна уявити розподіл "осі доходу" на однаково розташовані інтервали та наближення всіх значень, що потрапляють до заданого інтервалу, до середини.

Позначаючи загальний дохід як , s -му дозволене значення як x s , загальну кількість людей як N , і, нарешті, кількість людей з частками x s як n s , повинні бути виконані такі умови: C 1 ( { n s } ) s n s - N = 0 , і C 2 ( { n s } ) s n sXsxsNxsns

C1({ns})snsN=0,
C2({ns})snsxsX=0.

Зауважте, що багато різних способів поділу частки можуть представляти один і той же розподіл. Наприклад, якби ми розглядали поділ $ 4 між двома людьми, даючи 3 доларів Алісі та 1 долар Бобу, і навпаки, і те, і інше дало б однакові розподіли. Оскільки поділ є випадковим, найкращий шанс відбутися розподілу з максимальною кількістю відповідних способів поділу частки.

Для отримання такого розподілу треба максимізувати за двома наведеними вище обмеженнями. Метод множників Лагранжа є канонічним підходом до цього. Крім того, можна вибрати роботу зlnWзамість самогоW, оскільки "ln" є монотонною функцією збільшення. Тобто lnW

W({ns})N!sns!,
lnWWln деλ1,2- множники Лагранжа. Зауважте, що заформулою Стірлінга, lnn! nlnn-n, що веде до dlnn!
lnWns=λ1C1ns+λ2C1ns=λ1+λ2xs,
λ1,2
lnn!nlnnn,
Таким чином, lnW
dlnn!dnlnn.
Потім випливає, що nsexp(-λ1-λ2xs), що є експоненціальним розподілом. Можна отримати значення множників Лагранжа, використовуючи обмеження. Від першого обмеження N
lnWnslnns.
nsexp(λ1λ2xs),
деΔx- інтервал між дозволеними значеннями. Аналогічно X
N=snssexp(λ1λ2xs)1Δx0exp(λ1λ2x)dx=1λ2Δxexp(λ1),
Δx Тому маємо exp(-λ1)=N2Δx
X=snsxssxsexp(λ1λ2xs)1Δx0xexp(λ1λ2x)dx=1λ22Δxexp(λ1).
і λ2=N
exp(λ1)=N2ΔxX,
Що це дійсно максимум, а не мінімум чи точка сідла, можна побачити з гессеяlnW-λ1C1-λ2C2. ОскількиC1,2лінійні вns, то це те саме, щоlnW: 2 lnW
λ2=NX.
lnWλ1C1λ2C2C1,2nslnW і 2lnW
2lnWns2=1ns<0,
Отже, гессієць увігнутий, і те, що ми знайшли, справді максимум.
2lnWnsnr=0(sr).

W({ns})W({ns})ns1ns прагне до нуля, ця умова завжди судилася провалитися.

N1023


1
Дякую, будь ласка, подивіться на відповідь Glen_b. Чи відповідає це вашій відповіді?
vonjd

2
@vonjd Ласкаво просимо! Я думаю, що його відповідь відповідає моїй. Мені здається, що він робить аналогію з процесом Пуассона в такому сенсі: Розгляньте процес Пуассона із "середнім часовим інтервалом" 50 000, і порахуйте 10000 подій. Тоді в середньому "загальний інтервал часу" становить 50 000 х 10 000 = 500 мільйонів.
higgsss

2
@vonjd Я оновив свою відповідь. Найбільш помітно, я додав дискусію за умови, що розподіл, який ми зазвичай спостерігаємо, є чимось близьким до найбільш вірогідного розподілу.
higgsss

2
Розглядаючи окремі випадки, чи було б корисно зауважити, що Т речі можна розділити між N людьми ((N + T-1) вибрати (N-1)) способи? Якщо перша людина отримує речі, то кількість способів розподілу залишку - це ((N + Tf-2) вибрати (N-2)); сума цього значення для значень f від 0 до N - це загальна кількість способів розподілу всього.
supercat

1
ТN,ff(N+Т-f-2)(N-2)=(N+Т-f-2)!/(N-2)!/(Т-f)! (N+Т-f-2)!/(Т-f)!(Т-f)N-2ТN-2е-(N-2)f/Т

17

Насправді ви можете довести, що це насправді не експоненціально, майже тривіально:

500500

Однак не так вже й важко зрозуміти, що для прикладу вашої рівномірної прогалини він повинен бути близьким до експоненціального.

Розглянемо процес Пуассона - де події відбуваються випадковим чином у деякому вимірі. Кількість подій на одиницю інтервалу має розподіл Пуассона, а розрив між подіями експоненціальний.

Якщо взяти фіксований інтервал, то події в процесі Пуассона, які потрапляють в нього, розподіляються рівномірно в інтервалі. Дивіться тут .

[Однак зауважте, що оскільки інтервал є кінцевим, ви просто не можете спостерігати прогалини, що перевищують довжину інтервалу, і прогалини, майже такі великі, будуть малоймовірними (врахуйте, наприклад, в одиничному інтервалі - якщо ви бачите прогалини в 0,04 і 0,01, наступний проміжок, який ви бачите, не може бути більшим за 0,95).]

Тож крім впливу обмеження уваги на фіксований інтервал на розподіл прогалин (що зменшиться для великих н, кількість точок в інтервалі), ви б очікували, що ці прогалини будуть розподілені експоненціально.

Тепер у своєму коді ви розділяєте одиничний інтервал, розміщуючи формений одяг, а потім знаходячи прогалини в послідовній статистиці замовлень. Тут одиничний інтервал не є часом або простором, але являє собою розмір грошей (уявіть гроші як 50000 мільйонів центів, розкладених з кінця в кінець, і назвіть відстань, яку вони покривають одиничним інтервалом; хіба що тут ми можемо мати частки цента); ми лягаємон позначок, і це розділяє інтервал на н+1"акції". Через зв’язок між процесом Пуассона та рівномірними точками в інтервалі, прогалини в статистиці порядку уніформи будуть виглядати експоненціально, до тих пір, покин не надто малий.

Більш конкретно, будь-який проміжок, який починається в інтервалі, розміщеному над процесом Пуассона, має шанс бути «цензурованим» (фактично, скоротити коротше, ніж це було б інакше), запустивши в кінець інтервалу.

введіть тут опис зображення

Більш довгі прогалини швидше це робитимуть, ніж короткі, а більше проміжків в інтервалі означає, що середня довжина зазору повинна зменшуватися - більше коротких проміжків. Ця тенденція до «обрізання», як правило, впливатиме на розподіл довших прогалин більше, ніж коротких (і немає шансів, що якийсь проміжок, обмежений інтервалом, перевищить довжину інтервалу - тому розподіл розміру зазору повинен плавно зменшуватися до нуля при розмірі всього інтервалу).

На діаграмі довгий інтервал в кінці був скорочений, а відносно коротший інтервал на початку також коротший. Ці ефекти відволікають нас від експоненційності.

( Фактичний розподіл прогалин між ниминстатистика єдиного порядку - Beta (1, n). )

Тож ми повинні бачити розподіл у цілому н виглядають експоненціально в малих значеннях, а потім менш експоненціальні при більших значеннях, оскільки щільність при його найбільших значеннях скоротиться швидше.

Ось моделювання розподілу прогалин для n = 2:

введіть тут опис зображення

Не дуже експоненціальна.

Але для n = 20 він починає виглядати досить близько; насправді якн зростає великим, він буде добре наближений до експоненціалу із середнім значенням 1н+1.

введіть тут опис зображення

Якщо це насправді було експоненціальним із середнім значенням 1/21, то досвід(-21х) було б рівномірним ... але ми можемо бачити, що це не зовсім:

введіть тут опис зображення

Нерівномірність низьких значень там відповідає великим значенням прогалин - чого ми могли б очікувати від вищезгаданої дискусії, оскільки ефект "відсікання" процесу Пуассона на кінцевий інтервал означає, що ми не бачимо найбільші прогалини. Але якщо ви приймаєте все більше і більше значень, це йде далі в хвіст, і тому результат починає виглядати майже більш рівномірно. Вн=10000еквівалентне відображення було б важче відрізнити від рівномірного - прогалини (що представляють частки грошей) повинні бути дуже близькими до експоненціально розподілених, за винятком дуже малоймовірних, дуже вельми великих значень.


2
Тож просто правильно зрозуміти: Ви говорите, що це не експоненціально?!? higgsss доводить вище, що це експоненціально!
vonjd

3
Дозвольте мені процитувати свою відповідь: (i) "ви можете довести, що це насправді не експоненціально", але (ii) для рівномірних прогалин, на які ви подивилися, "... він повинен бути близьким до експоненціальної" ... ", поки n не є занадто малий." ... Що незрозуміло?
Glen_b -Встановіть Моніку

5
Я окреслив (тривіальний, очевидний) доказ того, що він насправді не є експоненціальним у своїй відповіді. higgss доводить , що він є експоненціальним. Ця (відмінна) відповідь цілком відповідає моїм твердженням. У ньому higgsss доводить, що це буде приблизно експоненціальним:нсдосвід(-λ1-λ2хс)
Glen_b -Встановити Моніку

2
Я вважаю, що ця відповідь - це чудовий спосіб поглянути на проблему і заслуговує на більшу кількість результатів. Але я боюся, що, як працює аналогія процесу Пуассона (наприклад, якому часу відповідає), може здатися незрозумілим. Чи готові ви детальніше розповісти?
higgsss

3
@higgsss Я трохи переробив (видаляючи посилання на час), додав трохи деталей та посилання. Я можу додати ще трохи обговорення пізніше. Якщо у вас є конкретні пропозиції, я буду зацікавлений у подальшому вдосконаленні своєї відповіді.
Glen_b -Встановити Моніку

8

Припустимо, гроші нескінченно поділяються, тому ми можемо мати справу з реальними числами, а не цілими числами.

Тоді рівномірний розподіл т=500000000 розділені поперек н=10000 люди дадуть граничну щільність для кожної людини

p(х)=н-1т(1-хт)н-2
для 0хт, і гранична сукупна ймовірність для кожної людини
П(Хх)=1-(1-хт)н-1.

Якщо ви хочете застосувати це, то використовуйте граничний розподіл, щоб виділити випадкову суму Х будь-якій людині, то зменшіть т до т-Х і н до н-1і повторити. Зауважте, що колин=2це дало б кожному окремому рівномірному граничному розподілу на суму, що залишилася, стільки, скільки можна було очікувати; колин=1 Ви віддаєте всі гроші, що залишилися, єдиній людині, що залишилася.

Ці вирази є многочленними, а не експоненціальними, але великими н можливо, вам буде важко відрізнити їх ефекти від експоненціального розподілу з параметром, близьким до нт. Розподіл асимптотично експоненціальний, оскільки(1-ум)мдосвід(-у) як м.


8

Скажімо, "припустимо, ви випадковим чином розділите 500 мільйонів доходу серед 10 000 людей" недостатньо специфічно, щоб відповісти на питання. Існує багато різних випадкових процесів, які можна використати для виділення фіксованої суми грошей фіксованій кількості людей, і кожен матиме свої особливості для отриманого розподілу. Ось три генераційні процеси, про які я міг би придумати, і розподіл багатства, який кожен створює.

library(MASS)

w <- 500000000 #wealth
p <- 10000 #people

Метод 1, розміщений ОП:

Виберіть числа "p" з [0, w) навмання рівномірно. Сортуйте ці. Додайте "0" спереду. Роздайте суми в доларах, представлені різницею між послідовними елементами цього списку.

d <- diff(c(0,sort(runif(p-1,max=w)),w)) #wealth-distribution
h <- hist(d, col="red", main="Exponential decline", freq = FALSE, breaks = 45,
     xlim = c(0, quantile(d, 0.99)))
fit <- fitdistr(d,"exponential")
curve(dexp(x, rate = fit$estimate), col = "black", type="p", 
      pch=16, add = TRUE)

рівномірний інтервал перерв

Спосіб 2:

Вибирають 'p' числа з [0, w) рівномірно випадково. Розглянемо ці "ваги", тому "w" насправді не має значення на цьому етапі. Нормалізуйте ваги. Роздайте суми в доларах, представлені часткою 'w', що відповідає кожній вазі.

d <- runif(p,max=w) #weigh-distribution
d <- d/sum(d)*w #wealth-distribution
h <- hist(d, col="red", main="pretty uniform", freq = FALSE, breaks = 45, 
          xlim = c(0, quantile(d, 0.99)))

rescaled weights

Спосіб 3:

Почніть з 'p' 0. w разів, додайте 1 до одного з них, вибраного рівномірно рівномірно.

d <- rep(0, p)
for( i in 1:5000000){ ## for-loops in R are terrible, but this gives the idea.
    k <- floor(runif(1, max=p)) + 1    
    d[k] = (d[k] + 1)
}
h <- hist(d, col="red", main="kinda normalish?", freq = FALSE, breaks = 45,
          xlim = c(0, quantile(d, 0.99)))

iterative dollars


4

Дозвольте додати щось стосовно вашого доповнення.

У безперервному випадку, як вказували Glen_b та Henry, точний PDF за сумою, яку отримує кожна людина

p(х)=N-1Х(1-хХ)N-2,
де N - кількість людей, і Х - загальна сума грошей.

У дискретному випадку, якщо припустити, що існують М монети для розповсюдження, ймовірність отримання певною людиною м монети є

p(м)=N-1М+1j=0N-3(1-мМ-j)N-2.
Коли МN, два випадки узгоджуються між собою. Для досить великихN і поки ми тримаємось подалі від хвоста, вони виглядають як експоненціальні розподіли.

В обох випадках, як ми беремо вибірку N разів від цього справжнього розподілу ймовірності буде помилка, пов'язана з кінцевим розміром вибірки.

Однак, аналіз аналізу помилок не здається простим, оскільки різні вибірки в цьому випадку не є незалежними. Вони повинні підсумовувати загальну суму, а скільки отримує перша людина, впливає на розподіл ймовірностей для другої людини тощо.

Моя попередня відповідь не страждає від цього питання, але я вважаю, що було б корисно подивитися, як це можна вирішити при такому підході.


3

Хороший теоретичний аналіз, зроблений за обґрунтованими відповідями. Однак ось мій простий, емпіричний погляд на те, чому розподіл експоненціальний.

Коли ви розподіляєте гроші випадковим чином , давайте розглянемо, що ви робите це по одному. Нехай S - початкова сума.

Для першого чоловіка потрібно вибрати випадкову суму між 0 і S. Таким чином, в середньому ви виберете S / 2 і залишитеся з S / 2.

Для другого чоловіка ви вибрали б випадково між 0 і, в середньому, S / 2. Таким чином, в середньому ви виберете S / 4 і залишитесь з S / 4.

Отже, ви в основному розділяєте суму вдвічі (статистично кажучи).

Хоча в прикладі реального життя у вас не буде постійно вдвічі менших значень, це показує, чому слід очікувати, що розподіл буде експоненціальним.


3
Ваш алгоритм десятки, щоб дати більше грошей першій людині, ніж будь-якій іншій. Є й інші підходи, які не мають цього упередження.
Генрі

@Henry Як ще ти почав би ділитися грошима? Починати потрібно з когось. А коли ви це робите, у вас є вся сума перед собою. Дати йому випадкову дріб буквально означає відбирати навмання від усієї суми. Не можна сказати, що припущення про "першого чоловіка" є неправильним, оскільки в іншому випадку той, хто ділиться грошима, просто розділить суму на кількість чоловіків, оскільки заздалегідь знає, скільки людей. Це лише моя точка зору: коли ти скажеш, що розбиваєш гроші "випадковим чином", просто один чоловік отримає більше грошей
Богдан Олександру

Богдан Олександру: Мій алгоритм (інша відповідь) має таку особливість, що розподіл для кожної людини є однаковим, незалежно від того, обираються вони першими, посередині чи останніми. Вона також відповідає рівномірній щільності по всьому простору, обмеженій загальною кількістю, що виділяється.
Генрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.