Навіщо використовувати теорію крайніх значень?


18

Я надходжу з цивільного будівництва, в якому ми використовуємо Теорію екстремальних значень , як розподіл GEV, щоб передбачити значення певних подій, як-от Найбільша швидкість вітру , тобто значення, на яке 98,5% швидкості вітру буде нижчою.

Моє запитання полягає в тому, навіщо використовувати такий екстремальний розподіл вартості ? Чи не було б простіше, якби ми просто використали загальний розподіл і отримали значення для ймовірності 98,5% ?

Відповіді:


24

Відмова від відповідальності: У наведених нижче пунктах ця ГРУЗЬКА передбачає, що ваші дані зазвичай розповсюджуються. Якщо ви насправді щось інженерні, тоді поговоріть з сильним професіоналом статистики і дозвольте цій людині підписати на лінії, сказавши, який рівень буде. Поговоріть з п'ятьма, або 25 з них. Ця відповідь призначена для студента цивільного будівництва, який запитує "чому", а не для професіонала-інженера, який запитує "як".

Я думаю, що питання, яке стоїть за цим питанням, полягає в тому, "що таке крайня розподіл вартості?". Так, це якась алгебра - символи. І що? правильно?

Давайте подумаємо про 1000-річну повінь. Вони великі.

Коли вони відбудуться, вони збираються вбити багато людей. Багато мостів йде вниз.
Ви знаєте, який міст не йде вниз? Я згоден. Ви цього ще не зробили.

Питання: Який міст не спускається під час потопу за 1000 років?
Відповідь: Міст призначений, щоб протистояти цьому.

Дані, які вам потрібні, щоб зробити це так:
Тож скажімо, у вас є 200 років щоденних даних про воду. Чи там 1000-річна повінь? Не віддалено. У вас є зразок одного хвоста розподілу. У вас немає населення. Якби ви знали всю історію повеней, тоді ви мали б загальну кількість населення. Давайте подумаємо над цим. Скільки років даних потрібно мати, скільки зразків, щоб мати хоча б одне значення, вірогідність якого становить 1 на 1000? У досконалому світі вам знадобиться щонайменше 1000 зразків. Реальний світ безладний, тому потрібно більше. Ви починаєте отримувати коефіцієнти 50/50 приблизно в 4000 зразків. Ви починаєте гарантовано мати більше 1 на приблизно 20 000 зразків. Зразок не означає "вода одна секунда проти наступної", але міра для кожного унікального джерела варіації - як коливання в році. Один захід протягом одного року, разом з іншим заходом протягом іншого року складають два зразки. Якщо у вас немає 4000 років хороших даних, ви, ймовірно, не маєте приклад 1000-річного затоплення даних. Хороша річ - вам не потрібно стільки даних, щоб отримати хороший результат.

Ось як отримати кращі результати з меншими даними:
Якщо ви подивитесь на річні максимуми, ви можете пристосувати "екстремальний розподіл значень" до 200 значень рік-макс-рівнів, і ви отримаєте розподіл, який містить 1000-річний потоп -рівень. Це буде алгебра, а не власне "наскільки вона велика". Ви можете скористатися рівнянням, щоб визначити, наскільки великим буде потоп 1000 років. Потім, враховуючи той об'єм води - ви можете побудувати свій міст, щоб протистояти цьому. Не стріляйте на точне значення, стріляйте на більші, інакше ви задумали, що це не вдасться під час потопу за 1000 років. Якщо ви сміливі, то можете скористатися перекомпонуванням, щоб зрозуміти, на скільки коштує більше 1000-річного значення, необхідного для його створення, щоб протистояти.

Ось чому EV / GEV є відповідними аналітичними формами:
Узагальнений екстремальний розподіл значень - це те, наскільки змінюється макс. Різниця в максимумі поводиться дійсно інакше, ніж середня варіація. Нормальний розподіл через центральну граничну теорему описує безліч "центральних тенденцій".

Порядок:

  1. зробіть наступні 1000 разів:
    i. вибрати 1000 номерів із стандартного нормального розподілу
    ii. обчислити макс цієї групи зразків і зберегти її
  2. тепер побудувати графік розподілу результату

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")
    

Це НЕ "стандартний нормальний розподіл": введіть тут опис зображення

Пік становить 3,2, але максимум піднімається до 5,0. Це перекос. Це не опускається нижче приблизно 2,5. Якщо у вас були фактичні дані (стандартний нормальний) і ви просто вибираєте хвіст, то ви рівномірно випадково вибираєте щось по цій кривій. Якщо вам пощастить, ви рухаєтесь до центру, а не до нижнього хвоста. Інженерія - це навпаки удачі - це про досягнення послідовно бажаних результатів кожного разу. " Випадкові числа є надто важливими, щоб залишити їх випадково " (див. Виноску), особливо для інженера. Сімейство аналітичних функцій, що найкраще відповідає цим даним, - сімейство розподілів надзвичайних значень.

Примірний приклад:
Скажімо, у нас є 200 випадкових значень максимуму за рік від звичайного нормального розподілу, і ми будемо робити вигляд, що це наша 200-річна історія максимальних рівнів води (що б це не означало). Для отримання дистрибуції ми зробили б наступне:

  1. Вибірка змінної "store" (щоб зробити короткий / простий код)
  2. підходять до узагальненого екстремального розподілу вартості
  3. знайти середнє значення розподілу
  4. використовуйте завантажувальний інструмент, щоб знайти верхню межу 95% CI у зміні середнього значення, тому ми можемо націлитись на нашу інженерію для цього.

(Код передбачає, що вищезазначене було запущено першим)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Це дає результати:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Їх можна підключити до функції генерування для створення 20 000 зразків

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Перехід до наступного дасть 50/50 шансів невдач у будь-який рік:

середнє значення (y3)
3,23681

Ось код, щоб визначити, який рівень "потопу" за 1000 років:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Виходячи з цього, слід отримати 50/50 шансів невдач під час потопу за 1000 років.

p1000
4.510931

Для визначення 95% верхньої ІС я використав наступний код:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

Результат:

> mytarget
     95% 
4.812148

Це означає, що для того, щоб протистояти великій більшості 1000-річних повеней, враховуючи, що ваші дані є бездоганно нормальними (не ймовірно), ви повинні побудувати для ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

або

> 1/(1-out)
   shape 
1077.829 

... 1078 рік повінь.

Нижні лінії:

  • у вас є вибірка даних, а не фактична загальна кількість населення. Це означає, що ваші квантові показники є оцінками, і їх можна вимкнути.
  • Розподіли на зразок узагальненого розподілу крайніх значень будуються для використання зразків для визначення фактичних хвостів. Вони значно менше погано оцінюють, ніж використовують значення вибірки, навіть якщо у вас недостатньо зразків для класичного підходу.
  • Якщо ви міцні, стеля високий, але результат цього - ви не зазнаєте невдач.

Удачі

PS:

  • 1/(1-0,985)67
  • Зважаючи на попередній пункт, в середньому кожні 67 років громадянам слід було відбудовуватися. Тож при повній вартості інженерії та будівництва кожні 67 років, враховуючи експлуатаційний термін цивільної структури (я не знаю, що це таке), в якийсь момент інженеру це може бути менш дорогим протягом тривалого міжбурмового періоду. Стала цивільна інфраструктура - це покликана тривати принаймні один життєвий цикл людини безвідмовно, чи не так?

PS: більше задоволення - відео на YouTube (не моє)
https://www.youtube.com/watch?v=EACkiMRT0pc

Виноска: Ковейо, Роберт Р. "Генерація випадкових чисел занадто важлива, щоб залишити їх випадковістю". Прикладні методи ймовірності та Монте-Карло та сучасні аспекти динаміки. Дослідження з прикладної математики 3 (1969): 70-111.


2
Мені може бути недостатньо зрозуміло. Моє основне занепокоєння полягає в тому, що чому використовувати, extreme value distributionа не the overall distributionпідходити до даних, і отримувати значення 98,5%.
cqcn1991

Що ви маєте на увазі під загальним населенням?
kjetil b halvorsen

1
оновив відповідь.
EngrStudent

2
@EngrStudent чудова відповідь, проте було б навіть краще, якби ви показали, як EVT працює тут краще, ніж використовуючи звичайний розподіл, крім надання ілюстрації.
Тім

2
Виконуючи деякі роботи з моделювання, я б сказав, що використовувати батьківський розподіл просто небезпечно, оскільки даних дуже мало, а екстраполяція просто небезпечна і нестабільна для моделювання екстремальних подій. І тому ми повинні використовувати теорію EV.
cqcn1991

7

Ви використовуєте теорію крайніх значень для екстраполяції спостережуваних даних. Часто ваші дані просто недостатньо великі, щоб забезпечити точну оцінку ймовірності хвоста. Беручи приклад @ EngrStudent події 1 на 1000 рік: це відповідає знаходженню 99,9% квантилу розподілу. Але якщо у вас є лише 200 років даних, ви можете обчислити лише емпіричні кількісні оцінки до 99,5%.

Теорія екстремальних значень дозволяє оцінити 99,9% кількісного показника, роблячи різні припущення щодо форми розподілу у хвості: про те, що він гладкий, що він розпадається з певним малюнком тощо.

Ви можете подумати, що різниця між 99,5% і 99,9% незначна; це лише 0,4%. Але це різниця у ймовірності , і коли ти знаходишся в хвості, це може перетворитись на величезну різницю в квантилах . Ось ілюстрація того, як виглядає дистрибуція гамми, яка не має дуже довгого хвоста, як це йде. Синя лінія відповідає квантилю 99,5%, а червона - 99,9%. Хоча різниця між ними невелика на вертикальній осі, поділ на горизонтальній осі є істотним. Розділення посилюються лише для справді довгохвостих розподілів; гама - насправді досить нешкідливий випадок.

введіть тут опис зображення


Ваша відповідь неправильна. 99,9% балів у нормі щорічно гине не відповідає події 1 на 1000 років. Максимум 1000 норм має різний розподіл. Я думаю, що це вирішено і в інших відповідях.
Марк Л. Стоун

@ MarkL.Stone Ніде я не сказав нічого про максимум 1000 нормалів.
Hong Ooi

1
В цьому і полягає моя суть. Подія 1 на 1000 років має базуватися на максимум 1000 нормальних щорічно. Це дуже відрізняється, ніж 99,9 $ бал на щорічну норму. Дивіться мій коментар до відповіді Карела Мацека нижче.
Марк Л. Стоун

@ MarkL.Stone Точка графіка полягає лише в тому, щоб показати, що коли ви знаходитесь в хвості, невеликі зміни ймовірностей відповідають великим змінам у квантилах. Ви можете замінити 99-відсотковий квантил GEV, GPD або будь-якого іншого розповсюдження. (І я навіть не згадував про нормальний розподіл.)
Hong Ooi,

Крім того, оцінка максимумів за допомогою GEV - лише один із способів отримання квантових хвостів. Інший спосіб - оцінювати кванти безпосередньо за допомогою GPD (припускаючи, що розподіл з великим хвостом).
Hong Ooi

7

Якщо вас цікавить лише хвіст, має сенс зосередити свої зусилля щодо збору та аналізу даних на хвості. Це повинно бути ефективнішим. Я наголосив на зборі даних, оскільки цей аспект часто ігнорується, представляючи аргумент для розподілу EVT. Насправді, зібрати відповідні дані для оцінки того, що ви називаєте загальним розподілом у деяких полях , було б нездійсненно . Я поясню докладніше нижче.

Якщо ви дивитесь на потоп 1 на 1000 років, як на прикладі @ EngrStudent, то для побудови нормального тіла розподілу вам потрібно багато даних, щоб заповнити його спостереженнями. Потенційно вам потрібна кожна повінь, що сталася за останні сотні років.

Тепер зупиніться на секунду і подумайте, що саме таке повені? Коли мій задній двір затоплений після сильного дощу, це повінь? Напевно, ні, але де саме знаходиться лінія, яка розмежовує потоп від події, яка не є потопом? Це просте запитання висвітлює проблему збору даних. Як ви можете переконатись, що ми збираємо всі дані про тіло за одним і тим же стандартом протягом десятиліть чи, можливо, навіть століть? Зібрати дані про тіло розповсюдження повеней практично неможливо.

Таким чином, це не тільки питання ефективності з аналізу , але питання про доцільність даних колекції : варто чи моделювати весь розподіл або просто хвіст?

Природно, що з хвостами збирати дані набагато простіше. Якщо ми визначимо достатньо високий поріг для того, що є величезним потопом , то ми можемо мати більший шанс, що всі або майже всі подібні події, мабуть, записані якимось чином. Важко пропустити руйнівну повінь, і якщо є якась цивілізація, присутня пам'ять про цю подію. Таким чином, має сенс будувати аналітичні інструменти, що зосереджуються конкретно на хвостах, враховуючи, що збір даних набагато надійніший у екстремальних подіях, ніж у неекстремальних у багатьох сферах, таких як дослідження надійності.


+1 Цікаві та зухвалі моменти, особливо у зауваженнях наприкінці.
whuber

(+1) Що стосується вашої останньої точки (збережена пам'ять), ефект Садлера може зацікавити.
GeoMatt22

@ GeoMatt22, це вперше я побачив документ і термін ефекту Садлера. Дякуємо за посилання
Аксакал

Це справді чудовий момент. Це система, тому системний підхід може мати чудовий вихід. Найкращий аналіз у світі може бути отруєний непотрібними даними. Досить простий аналіз, якщо живитись хорошими даними, може мати чудові результати. Хороші бали!
EngrStudent

6

Зазвичай розподіл базових даних (наприклад, гауссова швидкість вітру) здійснюється для однієї вибіркової точки. 98-й перцентиль скаже вам, що для будь-якої випадково вибраної точки існує 2% шансу, що значення буде більше 98-го перцентилету.

Я не інженер-будівельник, але я б уявив, що ви хочете знати, це не ймовірність того, що швидкість вітру в будь-який день буде вище певної кількості, а розподіл найбільшого можливого пориву над, скажімо, протягом року. У такому випадку, якщо щоденні максимуми пориву вітру, скажімо, розподіляються експоненціально, тоді ви хочете розподілити максимальний порив вітру протягом 365 днів ... саме це мало вирішити надзвичайний розподіл величини.


1

Використання квантиля робить подальший розрахунок простішим. Цивільні інженери можуть підставити значення (наприклад, швидкість вітру) у свої формули першого принципу, і вони отримують поведінку системи для тих екстремальних умов, які відповідають 98,5% квантові.

Використання всього дистрибутиву могло б дати більше інформації, але ускладнить обчислення. Однак це може дозволити використовувати передові підходи до управління ризиками, які оптимально збалансують витрати, пов'язані з (i) будівництвом та (ii) ризиком відмови.


Ну ... мені може бути недостатньо чітко. Мені просто хочеться знати, навіщо використовувати теорію екстремальних значень, а не загальний розподіл (весь розподіл?), Який ми зазвичай використовуємо?
cqcn1991

1
Якщо функція кумулятивного розподілу для будь-якої інстанції, наприклад, максимальна щоденна швидкість вітру, дорівнює F (x), то функція накопичувального розподілу для максимум n незалежних даних (наприклад, n = 365 за рік із максимальною щоденною швидкістю вітру ) є F ^ n (x). Це відрізняється від F (x).
Марк Л. Стоун
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.