Чому час виживання вважається експоненціально розподіленим?


36

Я вивчаю аналіз виживання з цієї посади на UCLA IDRE, і я потрапив у розділ 1.2.1. Підручник говорить:

... якщо часи виживання, як відомо, були експоненціально розподілені , то ймовірність дотримання часу виживання ...

Чому час виживання вважається експоненціально розподіленим? Мені це здається дуже неприродно.

Чому зазвичай не поширюються? Скажімо, припустимо, що ми досліджуємо тривалість життя якоїсь істоти за певних умов (скажімо, кількість днів), чи варто її більше зосереджувати навколо якоїсь кількості з деякою дисперсією (скажімо, 100 днів із відхиленням 3 дні)?

Якщо ми хочемо, щоб час був суворо позитивним, чому б не зробити нормальний розподіл з більш високою середньою величиною і дуже невеликою дисперсією (майже не буде шансів отримати від’ємне число.)?


9
Евристично я не можу вважати нормальний розподіл як інтуїтивний спосіб моделювання часу відмови. Він ніколи не обрізається ні в одній із моїх прикладних робіт. Вони завжди перекошені дуже вправо. Я думаю, що нормальні розподіли євристично виникають як середні значення, тоді як часи виживання евристично настають як екстремальний характер, такий як вплив постійної небезпеки, що застосовується до послідовності паралельних або послідовних компонентів.
AdamO

6
Я погоджуюся з @AdamO щодо екстремальних розподілів, властивих виживанню та часу до невдачі. Як зазначали інші, експоненціальні припущення мають перевагу в тому, що вони можуть бути простежувані. Найбільша проблема з ними - це неявне припущення про постійну швидкість занепаду. Можливі й інші функціональні форми, які є стандартними параметрами залежно від програмного забезпечення, наприклад, узагальненої гами. Для перевірки різних функціональних форм та припущень можна застосувати тести на придатність. Найкращий текст про моделювання виживання - це аналіз виживання Пола Елісона за допомогою SAS, 2-е видання. Забудьте про SAS - це відмінний огляд
Майк Хантер

8
Я зауважу, що найперше слово у вашій цитаті - " якщо "
Фоміт

Відповіді:


41

Експоненціальні розподіли часто використовуються для моделювання часу виживання, оскільки це найпростіші розподіли, які можна використовувати для характеристики даних про виживання / надійність. Це пояснюється тим, що вони без запам’ятовування, і, отже, функція небезпеки є постійною з / п / т часу, що робить аналіз дуже простим. Цей вид припущення може бути дійсним, наприклад, для деяких видів електронних компонентів, таких як високоякісні інтегральні мікросхеми. Я впевнений, що ви можете придумати більше прикладів, коли вплив часу на небезпеку можна сміливо вважати незначним.

Однак ви правильно зауважуєте, що це не було б правильним припущенням, яке можна робити у багатьох випадках. Нормальний розподіл може бути нормальним в деяких ситуаціях, хоча, очевидно, негативний час виживання є безглуздим. З цієї причини часто розглядаються лонормальні розподіли. Інші поширені варіанти включають Вейбул, Найменше Екстремальне значення, Найбільше Екстремальне значення, Логістичний та ін. Про розумний вибір для моделі буде поінформовано досвід та предмет імовірностей . Ви, звичайно, також можете розглянути непараметричне моделювання.

Хорошим посиланням на класичне параметричне моделювання в аналізі виживання є: Вільям К. Мекер та Луїс Ескобар (1998). Статистичні методи отримання даних про надійність , Вілі


Ви могли б детальніше розповісти про "функцію небезпеки - постійний час / час / т час"?
Haitao Du

4
@ hxd1011: Імовірно, "функцією небезпеки" автор посилається на функцію задану , де - pdf і - хвіст з ( ). Це також називається коефіцієнтом відмов . Спостереження полягає в тому, що для коефіцієнт відмов становить , яка є постійною. Крім того, не важко довести, що тільки експоненціальний розподіл має цю властивість.r X ( t ) = f X ( t ) / ˉ F X ( t ) f X X ˉ F X X ˉ F X ( t ) = 1 - F X ( t ) = t f X ( x )rXrX(t)=fX(t)/F¯X(t)fXXF¯XXExp ( λ ) r ( t ) = ( λ e - λ t ) / ( e - λ t ) = λF¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin

22

Щоб додати трохи математичної інтуїції за тим, як експоненти спливають у розподілах виживання:

Щільність ймовірності змінної виживання становить , де h ( t ) - поточна небезпека (ризик для людини "померти" в цей день), а S ( t ) - ймовірність того, що людина вижила до t . S ( t ) можна розширити як ймовірність того, що людина пережила день 1, а пережила день 2, ... до дня t . Тоді: P ( s u r v if(t)=h(t)S(t)h(t)S(t)tS(t)tР ( и у г v я v е д д у с 1 , 2 , . . . , т ) = ( 1 - ч ( т ) ) т С постійну та малу небезпеку λ , ми можемо використовувати: e - λ1 -

P(survived day t)=1h(t)
P(survived days 1,2,...,t)=(1h(t))t
λ наближати S ( t ) як просто ( 1 - λ ) te - λ t , а щільність ймовірності тоді f ( t ) = h ( t ) S ( t ) = λ e - λ t
eλ1λ
S(t)
(1λ)teλt
f(t)=h(t)S(t)=λeλt

Відмова від відповідальності: це жодним чином не спроба правильного виведення pdf - я просто зрозумів, що це акуратний збіг, і вітаю будь-які коментарі щодо того, чому це правильно / неправильно.

EDIT: змінив наближення до поради @SamT, дивіться коментарі для обговорення.


1
+1 це допомогло мені зрозуміти більше про властивості експоненціального розподілу.
Haitao Du

1
S(t)=...tλt(1+x/n)n exx=o(n)limt(1λt/t)t=eλtt

@SamT - дякую за коментар, відредаговано. Виходячи із застосованого фону, я дуже вітаю будь-які виправлення, особливо. на позначення. Перехід до межі wrt там, звичайно, не потрібен, але я все ж вважаю, що наближення має місце для малих , як це зазвичай зустрічається в моделях виживання. Або ви б сказали, що є щось інше, що збігає випадковість цього наближення? λtλ
juod

1
Зараз виглядає краще :) - проблема полягає в тому, що, хоча може бути малим, це неправда, що обов'язково малий; як такий, ви не можете використовувати наближення (безпосередньо): це навіть не "ви можете застосовувати математику, але не можете в чистому"; це просто не тримається зовсім. Однак ми можемо обійти це: у нас є те, що є малим, тому ми можемо туди потрапити безпосередньо, написавшиЗвичайно, , тож ми можемо вивести, щоλ t ( 1 + x / n ) ne x λ e - λ t = ( e - λ ) t( 1 - λ ) t . λ = λ t / t e - λ t( 1 - λ t / t ) t .λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
λ=λt/t
eλt(1λt/t)t.
Сем Т

Застосовуючи, ви можете відчути, що це трохи прискіпливо, але справа в тому, що міркування були неправдивими; подібні недійсні кроки можуть не бути істинними. Звичайно, коли хтось звернувся, ви, можливо, з радістю зробите цей крок, знайдете, що він дотримується в більшості випадків, і не турбуйтеся про особливості! Як хтось, хто займається чистою математикою, для мене це не викликає сумнівів, але я розумію, що нам потрібні і чисті, і застосовані! (І особливо в статистиці добре не зациклюватися на чистому техніці.)
Сем Т

11

Ви майже напевно захочете переглянути техніку надійності та прогнози для ретельного аналізу часу виживання. Всередині цього є кілька дистрибутивів, якими часто користуються:

Розподіл Вейбула (або "ванна") є найскладнішим. На нього припадають три типи відмов, які домінують у різному віці: дитяча смертність (де несправні частини ламаються на ранніх термінах), індуковані збої (де частини ламаються випадковим чином протягом життя системи) та зношуються (де частини виходять з ладу використання). Як правило, він має PDF-файл, який виглядає як "\ __ /". Особливо для деяких електроніків ви можете почути про "горіння в" часи, це означає, що ці частини вже експлуатувалися через "\" частину кривої, а ранні поломки були проаналізовані (в ідеалі). На жаль, аналіз Вейбула швидко руйнуєтьсяякщо ваші деталі не є однорідними (включаючи середовище використання!) або якщо ви використовуєте їх у різні часові масштаби (наприклад, якщо одні деталі переходять безпосередньо до використання, а інші частини спочатку переходять у сховище, швидкість "випадкового виходу з ладу" збирається суттєво відрізняються завдяки змішуванню двох вимірювань часу (години роботи та години використання).

Нормальні розподіли майже завжди неправильні. Кожен нормальний розподіл має негативні значення, жоден розподіл надійності не робить. Вони іноді можуть бути корисним наближенням, але в ті часи, коли це правда, ви майже завжди дивитесь на нормальний журнал, так що ви можете просто використовувати правильний розподіл. Нормально розподілені журнали правильно використовуються, коли у вас є якийсь знос та незначні випадкові збої, і ні за яких інших обставин! Як і звичайний розподіл, вони досить гнучкі, що ви можете змусити їх відповідати більшості даних; вам потрібно протистояти цьому заклику і перевірити, чи мають обставини сенс.

Нарешті, експоненціальний розподіл - це справжня робоча коня. Ви часто не знаєте, скільки старих частин (наприклад, коли деталі не серіалізуються та мають різний час, коли вони вступили в експлуатацію), тому будь-який розподіл на основі пам’яті вимкнений. Крім того, у багатьох частинах є час, який настільки довільно тривалий, що в ньому повністю переважають викликані збої, або поза корисними часовими рамками аналізу. Тож, хоча це може бути не настільки досконалою моделлю, як інші дистрибутиви, його просто не цікавлять речі, які їх подорожують. Якщо у вас є MTTF (кількість часу / кількість відмов населення, у вас є експоненціальний розподіл. Крім того, вам не потрібно фізичного розуміння вашої системи. Ви можете зробити експоненціальні оцінки простона основі спостережуваної частини MTTF (якщо брати достатньо великий зразок), і вони виходять досить близько. Це також стійке до причин: якщо кожні другий місяць хтось набридає і грає в крокет з якоюсь частиною, поки він не зламається, експоненціальні рахунки для цього (він котиться до MTTF). Експоненціал також досить простий, що ви можете робити обчислення зворотного конверту на наявність надлишкових систем і таке, що значно підвищує його корисність.


3
Це хороша відповідь, але зауважте, що розподіл Вейбулла не є "найскладнішим" параметричним розподілом для моделей виживання. Я не впевнений, чи може таке бути, але, безумовно, відносно Weibull є узагальнений розподіл Gamma та узагальнений розподіл F , обидва з яких можуть сприймати Weibull як особливий випадок, встановивши параметри на 0.
gung - Відновити Моніку

Це найскладніший варіант, який зазвичай використовується в інженерії надійності (перший абзац :) Я не погоджуюся з вашою точкою, але я також ніколи не бачив жодного фактично використовуваного (записи про те, як вони могли бути використані, так. Фактична реалізація, ні )
фектину Моніка

9

Щоб відповісти на своє чітке запитання, ви не можете використовувати нормальний розподіл для виживання, оскільки нормальний розподіл переходить до негативної нескінченності, а виживання суворо негативно. Більше того, я не думаю, що це правда, що "реально вважається, що час виживання вважається експоненціально розподіленим".

zt

>1<1

Найчастіше розподіли виживання є складними і не добре підходять до будь-якого названого розподілу. Люди, як правило, навіть не намагаються зрозуміти, яке воно може бути. Саме це робить модель пропорційної небезпеки Кокса такою популярною: вона є напівпараметричною, оскільки базову небезпеку можна залишити зовсім не визначеною, але решта моделі може бути параметричною з точки зору її зв'язку з не визначеною базовою лінією.


4
"Крім того, я не думаю, що це правда, що" час виживання вважається експоненціально розподіленим "будь-ким у дійсності". Я насправді вважав це досить поширеним в епідеміології, як правило, неявно.
Фоміт

1
@gung, ви можете ласкаво пояснити - це напівпараметричне те, що базову небезпеку можна залишити зовсім не визначеною, але решта моделі може бути параметричною з точки зору її відношення до невизначеної базової лінії
Gaurav Singhal

7

Деякі екології можуть допомогти відповісти на "Чому", що стоїть за цим питанням.

Причина, по якій експоненціальний розподіл використовується для моделювання виживання, пов’язана з життєвими стратегіями, що беруть участь у організмах, що живуть у природі. По суті, дві крайності щодо стратегії виживання, де є місце для середнього рівня.

Ось зображення, яке ілюструє, що я маю на увазі (люб’язно надано Академією Хана):

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

Цей графік зображує вижили особин на осі Y та "відсоток максимальної тривалості життя" (так само наближення віку особи) на осі X.

Тип I - це люди, які моделюють організми, які мають надзвичайний рівень піклування про своє потомство, забезпечуючи дуже низьку дитячу смертність. Часто ці види мають дуже мало потомства, тому що кожен забирає у батьків велику кількість часу та зусиль. Більшість, що вбиває організми типу I, - це тип ускладнень, що виникають у старості. Стратегія тут - це високі інвестиції для високої окупності за довгі продуктивні життєдіяльності, якщо ціною рівних чисел.

І навпаки, тип III моделюють дерева (але це також може бути планктон, корали, нерестові риби, багато видів комах тощо), де батько вкладає порівняно мало в кожне потомство, але виробляє тону з них у надії, що декілька вижити. Тут стратегія полягає в тому, щоб "розпорошувати і молитися", сподіваючись, що хоча більшість потомства буде знищено відносно швидко хижаками, які скористаються легким вилученням, мало хто виживе досить довго, щоб вирости, стає все важче вбити, з часом стає (практично) неможливо бути їли. Поки ці особи виробляють величезну кількість потомства, сподіваючись, що мало хто також виживе до свого віку.

Тип II - середня стратегія з помірними батьківськими інвестиціями для помірної життєздатності в будь-якому віці.

У мене був професор екології, який сказав так:

"Тип III (дерева) - це" Крива надії ", оскільки чим довше людина виживе, тим більше шансів на те, що вона продовжить виживати. Тим часом тип I (люди) -" Крива відчаю ", тому що чим довше ти живеш, тим більше шансів на те, що ти помреш ".


Це цікаво, але зауважте, що для людини, перш ніж сучасна медицина (і все ще в деяких місцях світу сьогодні), дитяча смертність дуже висока. Вихідне виживання людини часто моделюється з " небезпекою ванни ".
gung - Відновіть Моніку

@gung Абсолютно, це широке узагальнення, і у людей є різні варіанти різних регіонів та періодів часу. Основна відмінність ясніше, якщо ви порівнюєте крайнощі, тобто західні людські сім'ї (~ 2,5 дитини на пару, більшість з яких не гинуть у грудному віці) проти коралів чи нересту риб (мільйони яєць, що випускаються за цикл спаровування, більшість з яких померти через їжу, голодування, небезпечну хімію води або просто не змогли занести в житловий пункт)
CaffeineConnoisseur

1
Хоча я все для пояснень з екології, зазначу припущення, як це зроблено і для таких речей, як жорсткі диски та літакові двигуни.
Фоміт

6

Це не відповідає безпосередньо на питання, але я думаю, що це дуже важливо відзначити, і це не вписується добре в один коментар.

Хоча експоненціальний розподіл має дуже хороше теоретичне виведення, і, припускаючи, що отримані дані відповідають механізмам, що передбачаються в експоненціальному розподілі, він теоретично повинен давати оптимальні оцінки, на практиці я ще не натрапив на набір даних, де експоненціальний розподіл дає навіть близькі до прийнятних результатів (звичайно, це залежить від типів даних, які я аналізував, майже всіх біологічних даних). Наприклад, я просто переглянув можливість встановлення моделі з різноманітними дистрибутивами, використовуючи перший набір даних, який я міг знайти у своєму R-пакеті. Для перевірки моделі розподілу базової лінії ми зазвичай порівнюємо проти напівпараметричної моделі. Погляньте на результати.

Криві виживання

У Weibull, логістично-логістичному та звичайному розповсюдженні журналу немає абсолютного явного переможця з точки зору відповідної форми. Але є очевидний програш: експоненціальний розподіл! З мого досвіду, ця величина неправильного пристосування не є винятковою, а скоріше є нормою експоненціального розподілу.

Чому? Тому що експоненціальний розподіл - це сімейство єдиних параметрів. Таким чином, якщо я вказую середнє значення цього розподілу, я вказав усі інші моменти розподілу. Ці інші сім'ї - це всі дві параметри. Таким чином, в цих сім'ях набагато більше гнучкості для адаптації до самих даних.

Тепер майте на увазі, що розподіл Вейбула має експоненціальний розподіл як особливий випадок (тобто коли параметр фігури = 1). Тож навіть якщо дані справді експоненціальні, ми лише додаємо трохи більше шуму до наших оцінок, використовуючи розподіл Вейбулла над експоненціальним розподілом. Тому я б майже ніколи не рекомендував використовувати експоненціальний розподіл для моделювання реальних даних (і мені цікаво почути, чи є у когось із читачів приклад, коли це насправді гарна ідея).


1
Я не переконаний у цій відповіді: 1) "використовуючи перший набір даних, який я міг знайти у своєму R-пакеті" ... Дійсно? ... на stats.stackexchange? Один випадковий зразок і ми робимо загальні висновки? 1b) Для моделей, де час відмов має тенденцію до розподілу навколо заданої величини (наприклад, життя людей), чітко такі розподіли, як Гамма, Вейбул та ін; коли події однаково вірогідні, експоненціальний розподіл більше підходить. Я сумніваюся, що ваш "перший набір даних" вище є першим. 2) Усі інші моделі мають 2 параметри, для порівняння моделей слід використовувати, наприклад, коефіцієнт Байеса.
Лука Сіті

2
@LucaCiti: "перший набір даних у моєму R-пакеті" означає перший набір даних у R-пакеті, який я опублікував (icenReg). І я зазначив, що мій досвід експоненціального розподілу, який завжди мав погану форму, залежав від типу даних, які я аналізував; майже виключно біологічні дані. Нарешті, як я зазначив наприкінці, мені дуже цікаво почути реальні приклади, де є переконлива причина використовувати експоненціальний розподіл, тому, якщо у вас є, будь ласка, поділіться.
Кліф АВ

1
Сценарій, коли ви, можливо, захочете використовувати експоненціальний розподіл, був би тоді, коли (а) у вас було багато історичних даних, які показали, що дані дійсно добре наближені до експоненціального розподілу та (б) вам потрібно зробити висновок з малими зразками ( тобто n <10). Але я не знаю таких реальних програм, як це. Може, в якійсь проблемі контролю якості виробництва?
Cliff AB

1
Привіт Cliff, дякую, що знайшов час, щоб відповісти на мій коментар. Я думаю, що приблизно кажучи, такий розподіл, як Weibull, підходить для кращих ситуацій, що відповідають питанням на кшталт "який час життя окремих х в моєму зразку" або "коли нейрон x знову загориться" або "коли світлик x знову спалахне ". І навпаки, експоненціальний розподіл моделює питання на кшталт "коли наступна смерть очікується в моїй популяції", "коли наступний нейрон загориться" або "коли світлик у рої спалахне"
Лука Сіті

@LucaCiti; га, щойно зрозуміло, що ваш попередній потік був жартом про те, щоб зробити висновок з n = 1. Не знаю, як я пропустив це вперше. На мою захист, якщо у нас є теорія, яка говорить, що оцінювач повинен бути асимптотично нормальним, але це 4+ стандартних відхилень від інших асимптотично нормальних оцінок, то ми можемо! Але з усією серйозністю переконав мене не один сюжет, а бачити той самий рівень відхилення послідовно. Мене можуть заблокувати, якщо я спамую 20+ сюжетів поганих експоненціальних припадків.
Кліф АВ

4

Ще одна причина, по якій експоненціальний розподіл посівів часто моделює інтервал між подіями, полягає в наступному.

Добре відомо, що за деякими припущеннями сума великої кількості незалежних випадкових величин буде наближена до розподілу Гаусса. Аналогічна теорема стосується процесів оновлення , тобто стохастичних моделей подій, що відбуваються випадковим чином у часі з інтервалами подій IID. Насправді теорема Палма – Хінтчіна стверджує, що суперпозиція великої кількості процесів оновлення (не обов'язково пуассонівського) поводиться асимптотично, як процес Пуассона . Інтервали між подіями процесу Пуассона розподілені експоненціально.


3

tl; dr - Експоненціальний розподіл еквівалентний припущенню, що люди можуть померти в будь-який момент, як і будь-який інший.

Виведення

  1. Припустимо, що жива особина так само може померти в будь-який момент, як і будь-яка інша.

  2. dPdtP

dPdt  P
  1. Розв'язування шоу WolframAlpha :

P(t)=c1et

Отже, населення слідує експоненційному розподілу.

Математична записка

c0P(t0)t0

P(t)=etP(t0).

Перевірка реальності

Експоненціальний розподіл передбачає, що люди в населенні, як правило, вмирають з однаковою швидкістю з часом. Насправді рівень смертності буде відрізнятися для обмеженого населення.

Покращення розподілу включає стохастичні диференціальні рівняння . Тоді ми не можемо сказати, що існує ймовірність постійної смерті; швидше, ми повинні придумати розподіл шансів на смерть кожної людини в будь-який момент, потім об'єднати ці різні дерева можливостей для всієї сукупності, а потім вирішити це диференціальне рівняння у часі.

Я не можу згадати, як раніше це бачили в Інтернеті, тому ви, мабуть, не натрапите на нього; але це наступний крок моделювання, якщо ви хочете покращити експоненціальне розподіл.


3

(Зауважте, що в цитованій вами частині висловлювання було умовним; саме речення не передбачало експоненціального виживання, воно пояснювало наслідок цього. Проте припущення про експоненціальну виживаність є загальним, тому варто розібратися з питанням "чому експоненційний "і" чому не нормальний "- оскільки перший досить добре висвітлений, я більше зупинюсь на другому)

Зазвичай розподілені періоди виживання не мають сенсу, оскільки вони мають нульову ймовірність того, що час виживання буде негативним.

Якщо ви обмежите своє враження звичайними розподілами, які майже не мають шансів бути біля нуля, ви не зможете моделювати дані про виживання, які мають обґрунтовану ймовірність короткого часу виживання:

розподіл часу виживання - нормальне середнє значення 100 sd 10 проти конкретного розподілу із середнім 100 та sd 42, що має більш ніж 20% вірогідність часів виживання між 0 і 50

Можливо, час від часу періоди виживання, які майже не мають шансів на короткий час виживання, були б розумними, але вам потрібні розподіли, які мають сенс на практиці - зазвичай ви дотримуєтесь коротких і довгих часів виживання (і будь-що між ними), із типово перекошеними. розподіл часу виживання). Модифікований нормальний розподіл рідко буде корисним на практиці.

[ Урізана нормальна часто може бути розумним приблизним наближенням, ніж нормальна, але інші розподіли часто роблять краще.]

Постійна небезпека експоненціалу іноді є розумним наближенням до часу виживання. Наприклад, якщо "випадкові події", такі як нещасний випадок, є головним фактором смертності, експоненціальна виживаність буде працювати досить добре. (Наприклад, серед популяцій тварин іноді як хижацтво, так і хвороба можуть діяти хоча б приблизно як випадковий процес, залишаючи щось на зразок експоненції як розумне перше наближення до часів виживання.)


Ще одне додаткове запитання, пов’язане з усіченою нормою: якщо норма не підходить, чому не нормальний квадрат (chi sq з df 1)?

Дійсно, це може бути трохи краще ... але зауважте, що це відповідало б нескінченній небезпеці при 0, тому воно може бути корисним лише іноді. Хоча він може моделювати випадки з дуже високою часткою дуже коротких часів, у нього є зворотна проблема лише в змозі моделювати випадки з типово значно меншими за середню виживаність (25% періодів виживання нижче 10,15% середнього часу виживання і половина часу виживання становить менше 45,5% від середнього; тобто середня виживаність менше половини середньої.)

χ1212

Аналогічний графік до раніше, але також з щільністю змінної, яка в 100 разів перевищує чі-квадрат (1);  у неї високий пік при 0 і дуже важкий хвіст - середнє значення 100, але sd - приблизно 141, а середня - близько 45.

χ12χ2


дякую, я чекаю вашої відповіді з вчора :). Ще одне додаткове запитання, пов’язане з усіченою нормою: якщо норма не підходить, чому не нормальний квадрат (chi sq з df 1)?
Haitao Du

χ12

знову дякую за освіту мою інтуїцію за речами. Я бачив занадто багато підручників на рівні рецептів, і люди роблять речі, не знаючи чому. Резюме - це чудове місце для навчання.
Haitao Du

1

Якщо ми хочемо, щоб час був суворо позитивним, чому б не зробити нормальний розподіл з більш високою середньою величиною і дуже невеликою дисперсією (майже не буде шансів отримати від’ємне число.)?

Тому що

  1. що все ще має ненульову ймовірність бути негативним, тому це не є суто позитивним;

  2. середня величина та відхилення - це те, що ви можете виміряти від кількості населення, яку ви намагаєтеся моделювати. Якщо ваша популяція має середню 2 та дисперсію 1, і ви моделюєте її з нормальним розподілом, то нормальний розподіл матиме значну масу нижче нуля; якщо ви моделюєте його з нормальним розподілом із середнім 5 та дисперсією 0,1, ваша модель, очевидно, має дуже різні властивості до речі, яку вона повинна моделювати.

Нормальний розподіл має конкретну форму, і ця форма симетрична щодо середнього. Єдиний спосіб відкоригувати форму - перемістити її вправо і вліво (збільшити або зменшити середнє значення) або зробити її більш-менш розкладеною (збільшити або зменшити дисперсію). Це означає, що єдиний спосіб отримати нормальний розподіл, коли більша частина маси становить від двох до десяти, і лише невелика кількість маси знаходиться нижче нуля, вам потрібно поставити свою середню величину, скажімо, на шість (середина діапазону ) та встановіть дисперсію достатньо невеликою, щоб лише крихітна частка зразків була негативною. Але тоді ви, мабуть, виявите, що більшість ваших зразків становлять 5, 6 або 7, тоді як у вас повинно було бути багато 2, 3, 4, 8, 9 і 10 с.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.