Те ж саме, різна варіація


14

Припустимо, у вас є вісім бігунів, які бігають з гонки; Розподіл їх індивідуального часу запуску є нормальним, і, наприклад, кожен має середнє значення 11 секунд Стандартне відхилення бігуна один - найменший, два другий найменший, третій найменший тощо, і вісім найбільший. Двоє запитань мене бентежать: (1) Яка ймовірність, коли перший б’є останнього, і (2) хто, швидше за все, виграє гонку?

Мої відповіді 1/2 і 8 , відповідно. Так як вони одні й ті ж середнє значення, ймовірність того, що x¯1x¯8<0 є лише 1/2 , немає? Як я можу жорстко продемонструвати другу частину і чи можна обчислити точну ймовірність виграшу? Заздалегідь спасибі.


1
@Silverfish При порівнянні першої (модельованої як випадкова величина ) з останньою ( X n , вважається незалежною від X 1 ) нам потрібно лише врахувати Z = X 1 - X n . Це має симетричний безперервний розподіл із нульовим середнім. Шанс, який перший б'є останній, - це шанс, що ZX1XnX1Z=X1Xn , що (силу симетрії і безперервності) дорівнює 1 / 2 , як заявлено. Незважаючи на те, що останній має більше шансів виграти гонку, парадоксу немає: більшість випадків, коли перший б'є останнім,хтось іншийнасправді виграє гонку.Z<01/2
whuber

1
@whuber Дякую, мені вдалося зібрати те, що я маю на увазі - видалити, щоб запобігти плутанині. Цифра 1/2 правильна, але відповідь для порівняння їх середніх часів є неправильною і, здається, викликає плутанину із сукупністю засобів. Як ви пишете, це має бути різниця в X i . xi¯Xi
Срібна рибка

@Silver Це підкреслює небезпеку припускати, що ми завжди знаємо, що означає чиясь нотація, лише тому, що вона виглядає знайомою. Я висловився над цим питанням (із наголосами, що з’являються на « » та « х 8 »), оскільки призначений сенс був достатньо чітким і мав на увазі, що жоден з них не може представляти середнього нічого: у цьому контексті вони повинні виступати за самі випадкові змінні (які я написав X 1 і X n ). x1x8X1Xn
whuber

Відповіді:


15

Хоча точну ймовірність неможливо обчислити (за винятком особливих обставин з ), її можна чисельно обчислити швидко з високою точністю. Незважаючи на це обмеження, можна суворо довести, що бігун з найбільшим стандартним відхиленням має найбільші шанси на перемогу. На малюнку зображена ситуація і показано, чому цей результат інтуїтивно очевидний:n2

Figure

Показані щільності ймовірності для часів п’яти бігунів. Усі неперервні та симетричні щодо загального середнього μ . (Масштабована бета-щільність використовувалася для того, щоб усі часи були позитивними.) Одна щільність, намальована темно-синім кольором, має набагато більший розкид. Видима частина його лівого хвоста відображає моменти, з якими зазвичай не може відповідати жоден інший бігун. Оскільки той лівий хвіст із його відносно великою площею представляє помітну ймовірність, бігун із цією щільністю має найбільший шанс виграти гонку. (Вони також мають найбільший шанс вступити останнім часом!)

Ці результати підтверджені для більш ніж звичайних розподілів: наведені тут методи однаково добре застосовуються до розподілів, які є симетричними та безперервними. (Це буде цікаво для всіх, хто заперечує проти використання нормальних розподілів для моделювання часу роботи.) Якщо ці припущення порушені, можливо, бігун з найбільшим стандартним відхиленням може не мати найбільших шансів на перемогу (я залишаю побудову контрприкладів на зацікавлені читачі), але ми все ще можемо довести при м'яких припущеннях, що бігун з найбільшою SD матиме найкращі шанси на перемогу за умови, що SD достатньо великий.

На рисунку також випливає, що такі ж результати можна отримати, розглядаючи односторонні аналоги стандартного відхилення (так звана "напівваріантність"), які вимірюють дисперсію розподілу лише на одну сторону. Бігун з великою дисперсією ліворуч (у кращі часи) повинен мати більший шанс на перемогу, незалежно від того, що відбувається в решті розподілу. Ці міркування допомагають нам оцінити, чим властивість бути кращим (у групі) відрізняється від інших властивостей, таких як середні.


Нехай - випадкові величини, що представляють час бігунів. Питання передбачає, що вони незалежні та зазвичай розподілені із загальним середнім μ . (Хоча це буквально неможлива модель, оскільки вона має позитивні ймовірності за негативних часів, вона все ще може бути розумним наближенням до реальності за умови, що стандартні відхилення істотно менші за мк .)X1,,Xnμμ

Для того, щоб здійснити наступний аргумент, збережіть припущення про незалежність, але в іншому випадку припустімо, що розподіли задані F i, і ці закони розподілу можуть бути будь-якими. Для зручності також припустимо, що розподіл F n є безперервним з щільністю f n . Пізніше, за необхідності, ми можемо застосувати додаткові припущення за умови, що вони стосуються випадку звичайних розподілів.XiFiFnfn

Для будь-якого та нескінченно малого d y , шанс того, що останній бігун має час в інтервалі ( y - d y , y ] і є найшвидшим бігуном, отримується шляхом множення всіх відповідних ймовірностей (тому що всі часи незалежні):ydy(ydy,y]

Pr(Xn(ydy,y],X1>y,,Xn1>y)=fn(y)dy(1F1(y))(1Fn1(y)).

Інтеграція всіх цих взаємовиключних можливостей дає можливість

Pr(Xnmin(X1,X2,,Xn1))=Rfn(y)(1F1(y))(1Fn1(y))dy.

Для нормальних розподілів цей інтеграл неможливо оцінити у закритому вигляді, коли n>2 : йому потрібна чисельна оцінка.

Figure

Цей малюнок побудує інтеграл для кожного з п’яти бігунів, що мають стандартні відхилення у співвідношенні 1: 2: 3: 4: 5. Чим більше SD, тим більше функція зміщується вліво - і тим більшою стає її площа. Площі приблизно 8: 14: 21: 26: 31%. Зокрема, у бігуна з найбільшим SD є 31% шансів на перемогу.


Незважаючи на те, що закритої форми знайти неможливо, ми все одно можемо зробити ґрунтовні висновки та довести, що бігун із найбільшою SD найімовірніше виграє. Нам потрібно вивчити, що відбувається, коли змінюється стандартне відхилення одного з розподілів, скажімо, . Коли випадкова величина X n перераховується на σ > 0 навколо її середнього, її SD множиться на σ і f n ( y ) d y зміниться на f n ( y / σ ) d y / σFnXnσ>0σfn(y)dyfn(y/σ)dy/σ . Внесення змінної змінної в інтеграл дає вираз для шансу бігуна n виграти, як функцію σ :y=xσnσ

ϕ(σ)=Rfn(y)(1F1(yσ))(1Fn1(yσ))dy.

Suppose now that the medians of all n distributions are equal and that all the distributions are symmetric and continuous, with densities fi. (This certainly is the case under the conditions of the question, because a Normal median is its mean.) By a simple (locational) change of variable we may assume this common median is 0; the symmetry means fn(y)=fn(y) and 1Fj(y)=Fj(y) for all y. These relationships enable us to combine the integral over (,0] with the integral over (0,) to give

ϕ(σ)=0fn(y)(j=1n1(1Fj(yσ))+j=1n1Fj(yσ))dy.

The function ϕ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

yfn(y)fi(yσ)(jin1Fj(yσ)jin1(1Fj(yσ)))

for i=1,2,,n1.

The assumptions we made about the distributions were designed to assure that Fj(x)1Fj(x) for x0. Thus, since x=yσ0, each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors yfn(y)fi(yσ) are clearly nonnegative because densities cannot be negative and y0. We may conclude that ϕ(σ)0 for σ0, proving that the chance that player n wins increases with the standard deviation of Xn.

This is enough to prove that runner n will win provided the standard deviation of Xn is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the Xi are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to 1/n). Start by setting all distributions to that of runner n. Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that n wins cannot decrease, while the chances of all the other runners have decreased. Consequently, n has the greatest chances of winning, QED.


@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of λ, say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by 1/λ, thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.
whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.
Phonon
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.