Чи існує сьогодні хтось швидший за Юсейна Болта?


12

EDIT: Мене більше цікавлять технічні питання та методологія визначення ймовірності "справжнього" максимуму в даній сукупності за даними вибіркової статистики. Існують проблеми з оцінкою ймовірності швидших бігунів, ніж містер Болт, з рекордно-різного часу тире, який є однозначним і тонким. Наполохайте мене, уявляючи, що це не так.


Юсейн Болт - це найшвидший вимір людини на 100 метрів. Однак, враховуючи невелику кількість спортсменів, здається, що "справжній" найшвидший живий чоловік сидить десь на дивані і ніколи не робив спроб змагальної бігової кар'єри.

Я намагаюся використати той факт, що різниця між зразками на хвостах нормального розподілу стає все меншою та меншою. Я використовую це для обчислення ймовірності, що існує хтось швидше, ніж Юсейн Болт, порівнюючи Юсейна з другим найшвидшим, 3-м найшвидшим і так далі.

Для цього я намагаюся обчислити найбільшу величину, що існує поза «Болтом Юсейна», взявши похідну CDF нормального розподілу відносно , піднімаючи це до го (де становить приблизно 700000000000 або кількість зразки менше "максимуму" - логіка, що стоїть за цим, описана на німецькій сторінці Wikipedia Problem Tank Problem, яка узагальнює різні розподіли), наприклад:n nynn

0yfYN(y)dy=λn0y[12[1+erf(yμσ2)]]n112πσ2e(yμ)22σ2dy

  1. Це вірний спосіб обчислити ймовірність того, що існує хтось швидше, ніж Усейн Болт?

  2. Чи є назва такого питання поза "Проблема німецьких танків для інших дистрибутивів"

  3. Чи є хороший спосіб оцінити стандартне відхилення від крайніх вибірок розподілу? Знайти інформацію про найшвидші 100-ти тире всіх часів дуже просто, знайти середні показники та дисперсію важко)

Дякую за терпіння в роботі з програмістом без передумови в темі.


2
Ви робите припущення, що ви спортсмен, не залежить від швидкості бігу. Що нормально, але сумнівно.
bayerj

@bayerj Так, я думаю, цілком зрозуміло, що це був би дуже поганий спосіб прогнозування наступного олімпійського претендента. Однак загалом це здається цікавим питанням, і я намагаюся відповісти на це якнайкраще з надією, що хтось змилується і допоможе мені разом.
ŹV -

1
Я вважаю, що питання є невірним, оскільки якість "швидкого (швидкого)" тут стосується генетичного потенціалу чи атлетичного таланту, а не реальної здатності досягти високої швидкості.
Дігіо

@Digio Замініть "швидше" на "має більший серійний номер", припускаючи, що деяка компанія "Fubarco" виготовляє набір продуктів із звичайно розподіленими серійними номерами.
ŹV -

1
Мотивація питання на прикладі, як правило, добре робити. Однак цей приклад, здається, відволікає людей від того, що ви насправді намагаєтесь запитати. Чи можете ви відредагувати це, щоб обговорити ситуацію, з якою ви дійсно стикаєтесь?
gung - Відновіть Моніку

Відповіді:


2

Всупереч іншим відповідям, я стверджую, що ви можете сказати щось про здібності Болтів за наявних даних. Перш за все, давайте звузимо ваше запитання. Ви запитуєте про найшвидших людей, але оскільки є різниця в розподілі швидкостей бігу для чоловіків і жінок, де найкраща жінка, яка біжить у бігунах, здається трохи повільнішою, ніж найкраща бігунка, ми повинні зосередитися на чоловіках-бігунах. Щоб отримати деякі дані, ми можемо переглянути найкращі річні виступи на 100 серіях за останні 45 років . Про ці дані слід помітити кілька речей:

  • Це найкращі часи роботи, тому вони розповідають не про здібності всіх людей, а про мінімально досягнуті швидкості.
  • Ми припускаємо, що ці дані відображають вибірку найкращих бігунів світу. Хоча могло статися, що були ще кращі бігуни, які не брали участі у чемпіонатах, це припущення видається досить обґрунтованим.

Спочатку обговоримо, як не проаналізувати ці дані. Ви могли помітити, що якщо ми будуватимемо час виконання часу, ми спостерігатимемо сильну лінійну залежність.

Кращий час роботи проти часу

Це може призвести до використання лінійної регресії для прогнозування того, наскільки краще бігунів ми могли б спостерігати в наступні роки. Це, однак, буде дуже поганою ідеєю, яка неминуче приведе вас до висновку, що приблизно через дві тисячі років люди зможуть пробігти 100 метрів за нульові секунди, і після цього вони почнуть домагатися негативного часу роботи! Це, очевидно, абсурдно, оскільки ми можемо собі уявити, що існує якась біологічна та фізична межа наших можливостей, що нам невідомо.

Як ви могли проаналізувати ці дані? По-перше, зауважте, що ми маємо справу з даними про мінімальні значення, тому для таких даних слід використовувати відповідну модель. Це призводить нас до розгляду моделей теорії екстремальних значень (див., Наприклад, Вступ до статистичного моделювання екстремальних значень книги Стюарта Коула). Ви можете припустити для цих даних узагальнений розподіл надзвичайних значень (GEV). Якщо де є незалежними і однаково розподіленими випадковими змінними, то слідує за розподілом GEV. Якщо ви зацікавлені в моделюванні мінімумів, то якщо є зразками мінімумів, тоX 1 , X 2 , , X n Y i Z 1 , Z 2 , , Z k - Z iY=max(X1,X2,,Xn)X1,X2,,XnYiZ1,Z2,,ZkZiслідкуйте за розподілом GEV для мінімумів. Таким чином, ми можемо пристосувати розподіл GEV до даних про швидкість бігу, що призводить до досить приємного пристосування (див. Нижче).

Розподіл GEV для швидкості руху

Якщо ви подивитесь на кумулятивний розподіл, запропонований моделлю, ви помітите, що найкращий час роботи Юсейна Болта - це найнижчий1%хвіст розподілу. Отже, якщо ми будемо дотримуватися цих даних і цього аналізу на прикладі іграшок, ми б зробили висновок, що набагато менші тривалість роботи малоймовірні (але, очевидно, можливі). Очевидна проблема цього аналізу полягає в тому, що ігнорується той факт, що ми спостерігали щорічні покращення найкращих періодів роботи. Це повертає нас до проблеми, описаної в першій частині відповіді, тобто, якщо припустити регресійну модель тут ризиковано. Ще одна річ, яку можна вдосконалити - це те, що ми могли б використовувати байєсівський підхід та припускати інформативність до того, яка б враховувала певні знання про фізіологічно можливі часи роботи, які, можливо, ще не спостерігалися (але, наскільки я знаю, це наразі невідомо). Нарешті, подібні теорії екстремальної вартості вже використовувались у спортивних дослідженнях, наприклад, Ейнмахл та Магнус (2008) уЗаписи з легкої атлетики за допомогою теорії надзвичайних цінностей .

Ви можете протестувати, що ви не питали про ймовірність швидшого часу бігу, а про ймовірність спостереження за швидшим бігуном. На жаль, тут ми не можемо багато зробити, оскільки не знаємо, яка ймовірність того, що бігун стане професійним спортсменом, і записані час бігу будуть доступні для нього. Це не відбувається випадковим чином, і багато факторів сприяють тому, що деякі бігуни стають професійними спортсменами, а деякі ні (або навіть, що хтось любить бігати і бігати взагалі). Для цього нам слід було б мати докладні дані про повну популяцію про бігунів, до того ж, оскільки ви запитуєте про крайності розподілу, дані повинні були бути дуже великими. Тож щодо цього я згоден з іншими відповідями.


1

Мій перший інстинкт - це погана ідея, але дозвольте мені трохи зламати, чому.

1) Ви хочете виміряти непомітну змінну, латентну майстерність бігу, і спостережувану, записану часом виконання. Це нормально, але: У німецькій проблемі з танками серійні номери генеруються з однакового розподілу. У вашій проблемі вам слід зробити висновок про приховану змінну (7 мільярдів людей) із спостережуваної змінної тривалості роботи. У GTP відомо кілька серійних номерів. У вашій проблемі ви зовсім не зібрали даних і просто переходите до максимуму (Болт). Більше того, ви, здається, припускаєте, що цей непомітний прихований навик не пов'язаний з фактичним часом роботи до того моменту, коли можливо, хто-небудь, хто ніколи не бігав, краще, ніж Болт. Це просто здається абсурдом!

2) Спортсмени - не випадкові вибірки популяції. Вони підбираються ретельно за допомогою декількох випробувань. Якщо припустити, що кожен, хто здатний бігати на всіх, мабуть, змагався з ким-небудь хоча б раз у житті, і кожна людина приймала рішення про те, чи слід продовжувати змагання на більш високому рівні, виходячи з того, як часто або наскільки вони виграють ці раси --- тоді, здається, неправдоподібно, що Болт справді є найшвидшим людським буттям.

Це лише перші причини, які приходять на думку. Чесно кажучи, ти з цим трохи доручаєшся. Немає можливості виміряти "ймовірність" тієї речі, про яку ти говориш.


Інший респондент зробив подібні зауваження, і це, безсумнівно, вірно, що оцінка ймовірності існування когось швидшого, ніж містер Болт на цій основі, дуже хибна. Також було б цікавіше знати, чи технічна логіка передбачення, заснована на цих крайніх значеннях, в принципі правильна.
ŹV -

3
Я б запропонував абстрагувати це питання, щоб дістати до основи того, що ви насправді намагаєтесь задати, оскільки контекст створить багато відволікань. Досі мені не зрозуміло, що являє собою "нормальний розподіл", на який ви посилаєтесь. Фактичний час роботи? Бігові здібності спортсменів?
вироджений гессіан

-2

Відповідь - НІ.

Ви припускаєте, що є вибірка з популяції (спортсменів), а Болт - це максимум на цій вибірці. Отже, ви шукаєте ймовірність того, що максимальна кількість населення перевищує максимум вибірки. Це ваша гіпотеза.

Що робити, якщо ваше припущення помилкове, і що вибірка справді була сукупністю?

Я можу зробити розумний аргумент, що кожна людина, яка може бігати, мала шанс його перемогти. Ніхто цього не робив, тож він справжній макс населення Землі.

Зрозуміло, що спортсмени не є випадковою вибіркою. Я сподіваюся, що з цього питання не виникає. Існує певна ступінь випадковості в тому, як людина стає спортсменом, звичайно. З іншого боку, якщо хтось не спортсмен, то його спортивні навички та досягнення не збираються порівнювати зі спортсменом. Я можу припустити, що хтось МОЖЕ ПОТЕНЦІАЛЬНО бігати швидше, ніж Болт, враховуючи всі умови для тренувань, А ТРЕНИЙ тренується так само важко, як Болт. Однак, нульова ймовірність, що ти витягнеш не спортсмена, і він б’є Болт на 100 м тире в легкоатлетичних умовах.


Мене більше цікавить методологія, за якою вона правильна, уявіть, Танки, чиї порядкові номери, як правило, розподіляються без дублікатів, а не швидкість роботи :)
ŹV -
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.