Приклади реального життя з розподілами з негативною перекошеністю


21

Натхненний " прикладами реального життя загальних розподілів ", мені цікаво, які педагогічні приклади люди використовують для демонстрації негативної скутості? Існує багато "канонічних" прикладів симетричних або нормальних розподілів, які використовуються в навчанні - навіть якщо такі, як висота і вага, не переживають ретельнішого біологічного контролю! Артеріальний тиск може бути ближчим до нормальності. Мені подобаються астрономічні помилки вимірювань - історичний інтерес, вони інтуїтивно не мають більшої ймовірності брехати в одному напрямку, ніж в іншому, з невеликими помилками, швидше, ніж великими.

До загальних педагогічних прикладів позитивного спотворення відносяться доходи людей; пробіг уживаних автомобілів на продаж; часи реакції в експерименті з психології; ціни на житло; кількість претензій на випадок нещасного випадку страховим клієнтом; кількість дітей у сім'ї. Їх фізична розумність часто випливає з обмеження внизу (як правило, на нуль), при цьому низькі значення є правдоподібними, навіть загальними, але дуже великими (іноді на порядок вище) значеннями, як відомо, трапляються.

Щодо негативного перекосу, мені важче навести однозначні та яскраві приклади того, що молодша аудиторія (старшокласники) може інтуїтивно зрозуміти, можливо, тому, що менша кількість розподілів у реальному житті має чітку верхню межу. Прикладом поганого смаку, якого я навчали в школі, було "кількість пальців". Більшість людей мають десять, але деякі втрачають одне або більше в аваріях. Підсумок "99% людей мають більше середнього числа пальців"! Полідактилія ускладнює питання, оскільки десять не є суворою верхньою межею; Оскільки і відсутні, і зайві пальці є рідкісними явищами, студентам може бути незрозуміло, який ефект переважає.

Зазвичай я використовую біноміальний розподіл з високим . Але студенти часто виявляють, що "кількість задовільних компонентів у партії є негативно перекошеною", менш інтуїтивно зрозумілою, ніж доповнюючий факт, що "кількість несправних компонентів у партії позитивно перекошена". (Підручник промислово тематичний; я вважаю за краще тріснуті та неушкоджені яйця в коробці з дванадцяти.) Можливо, учні відчувають, що «успіх» має бути рідкісним.p

Інший варіант полягає в тому, щоб зазначити, що якщо позитивно перекошений, то негативно перекошений, але розміщення цього в практичному контексті ("негативні ціни на будинки негативно перекошені") видається приреченим на педагогічну невдачу. Незважаючи на те, що викладання наслідків трансформації даних є корисними, спочатку здається конкретним прикладом. Я вважаю за краще таке, яке не здається штучним, де негативний перекос є досить однозначним, і для якого життєвий досвід учнів повинен дати їм усвідомлення форми розподілу.- ХXX


4
Не очевидно, що заперечення змінної буде "педагогічним провалом", оскільки існує можливість додавання константи без зміни форми розподілу. Наприклад, багато перекошених розподілів включають пропорції , а взаємодоповнюючі пропорції зазвичай такі ж природні і прості для інтерпретації, як початкові пропорції. Навіть при цінах на житло значення де - максимальна ціна житла в цьому районі, можуть бути цікавими і не важко зрозуміти. Також розглянути можливість використання журналів і негативних перетворень потужності для створення негативного перекосу. 1 - X X C - X CX1XXCXC
качан

2
Я погоджуюся, що у випадку з цінами на будинки буде трохи надуманим. Але не буде: це була б "сума будинку, яку можна купити за долар". Я підозрюю, що в будь-якій досить однорідній області це матиме сильний негативний перекіс. Такі приклади можуть навчити глибший урок, що перекос - це функція того, як ми виражаємо дані. 1 / XCX1/Х
whuber

3
@whuber Це взагалі не було б надумано. Максимальні та мінімальні потенційні ціни на ринку виникають природно як ті, що відображають різні оцінки учасників ринку. Серед покупців, можливо, є такий, який заплатив би максимальну ціну за даний будинок. І серед продавців є такий, який би міг прийняти мінімальну ціну. Але ця інформація не є загальнодоступною, тому на фактичні спостережувані ціни транзакцій впливає наявність неповної інформації. (CONT'D)
Алекос Пападопулос

1
ЗРОБУЙТЕ ... Наступний документ Kumbhakar і Parmeter (2010) моделює саме це (допускаючи також випадок симетрії) та із додатком на домашньому ринку: link.springer.com/article/10.1007/s00181-009 -0292-8 # сторінка-1
Алекос Пападопулос

3
Вік при смерті негативно перекошений у розвинених країнах.
Нік Кокс

Відповіді:


3

У Великобританії ціна книги. Існує "Рекомендована роздрібна ціна", яка, як правило, буде модальною ціною, і практично ніде вам не доведеться платити більше. Але деякі магазини знижуватимуть, а деякі знижують сильно.

Також вік при виході на пенсію. Більшість людей виходять на пенсію у віці 65-68 років, коли державна пенсія починає працювати, мало хто працює довше, але деякі люди виходять на пенсію у 50-х роках і дуже багато на початку 60-х.

Тоді також отримують кількість людей, які мають ГКЗЕ. Більшість дітей вводяться за 8-10 і так отримують 8-10. Невелика кількість робить більше. Деякі з дітей не здають всіх іспитів, тому постійно зростає з 0 до 7.


1
Це, можливо, потребує пояснення, що GCSE - це іспит у середніх школах Великобританії та деяких суміжних системах, які найчастіше приймаються у віці близько 16 років.
Нік Кокс

18

Нік Кокс точно прокоментував, що "вік при смерті негативно перекошений у розвинених країнах", що я вважав прекрасним прикладом.

Я знайшов найзручніші цифри, на які я міг би покласти руки, прийшов з Бюро статистики Австралії ( зокрема, я використав цей лист Excel ), оскільки їхні вікові скриньки досягли 100-річного віку, а найстаршому австралійському чоловікові було 111 років , тому я відчував себе комфортно, відрізаючи останню бункер у 110 років. Інші національні статистичні агентства часто, здавалося, зупиняються на 95, що зробило остаточну кошик незручно широкою. Отримана гістограма показує дуже чітке негативне перекос, а також деякі інші цікаві особливості, такі як невеликий пік смертності серед дітей молодшого віку, які цілком підходять для обговорення та інтерпретації класу.

Вік смерті чоловіків Австралії в 2012 році

Код R із необробленими даними випливає, HistogramTools пакет виявився дуже корисним для побудови графіків на основі зведених даних! Завдяки цьому запиту StackOverflow за позначення його.

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

2
Дещо пов’язаний з цією посадою, я чув, що пенсійний вік має негативні перекоси: більшість людей виходять на пенсію приблизно за номінальний вік (скажімо, 65 чи 67 років у багатьох країнах), але деякі (скажімо, робітники на вугільних шахтах) виходять на пенсію набагато раніше.
Крістоф Хенк

Чи відповідає вік смерті емпіричним шляхом?
StubbornAtom

11

Ось результати для сорока спортсменів, які успішно виконали законний стрибок у відбірковому раунді 2012 року серед чоловіків в олімпійському стрибку в довгу, представлені на ділянці щільності ядра з сюжетом килимка.

Результати відбіркового раунду серед чоловіків у Лондоні 2012 року

Здається, набагато простіше бути на відстань метра від основної групи конкурентів, ніж бути на метр попереду, що пояснювало б негативне перекос.

Я підозрюю, що певна купа у верхньому кінці пов’язана з тим, що спортсмени націлюють кваліфікацію (для якої потрібна фініш дванадцяти фіналів або результат 8,10 метрів і вище), а не досягнення максимально довгої дистанції. Той факт, що два найкращі результати були на 8,11 метра, трохи вище автоматичного відбіркового знака, настійно підказує, як і те, як медалі у стрибках у фіналі були і довші, і більше розкинулися на 8,31, 8,16 та 8,12 метра. Результати у фіналі мали незначне, негативне перекос.

Для порівняння, результати для олімпійського семиборстві в Сеулі 1988 року доступні в heptathlonнаборі даних в пакеті R HSAUR. У цьому змаганні не було відбіркового раунду, але кожна подія вносила бали до остаточної класифікації; У жінок-конкурентів виявились виражені негативні перекоси в результатах стрибків у високу та дещо негативні перекоси у стрибках у довжину. Цікаво, що це не повторювалось у подіях кидання (постріл та стрибки), хоча вони також є подіями, в яких більша кількість відповідає кращому результату. Підсумкові бали також були дещо негативно перекошені.

Дані та код

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11

Оцінки на легких тестах, або, як альтернативу, оцінки на тестах, до яких студенти особливо мотивовані, як правило, залишаються перекошеними.

Як результат, SAT / ACT балів студентів, які вступають до затребуваних коледжів (а тим більше, їхніх балів), як правило, залишаються перекошеними. Прикладів існує на прикладі collegeapps.about.com, наприклад, сюжет Чиказького університету SAT / ACT та GPA тут .

Точно так само середні бали випускників часто є лівим перекладом, наприклад, гістограми нижче середніх балів випускників білого та чорного кольору у вищому університеті, отриманому з рис. 5 Грамлінга, Тім. " Як п’ять характеристик студента точно прогнозують коефіцієнти випускного університету на прибуток ." SAGE Open 3.3 (2013): 2158244013497026.

Гістограма ГПД, що показує негативний перекос

(Не важко знайти інші подібні приклади.)


2
Для вступного уроку статистики я думаю, що цей приклад добре працює педагогічно - це те, що студенти, мабуть, мають досвід у реальному житті, можуть міркувати інтуїтивно та можуть підтвердити проти широко доступних наборів даних.
Срібна рибка

9

У стохастичному аналізі кордонів, а саме в його історично первинному напрямку, виробництво, виробнича функція фірми / виробничого підрозділу в цілому визначається стохастично як

q=f(х)+у-ш

qf(х)хушчерез причини, які економетрик може не знати, але він може виміряти через цю установку. Зазвичай, ця випадкова величина, як правило, відповідає напів нормальному або експоненціальному розподілу. Якщо припустити половину нормальної (з причини), ми маємо

уN(0,σу2),шНN(2πσ2,(1-2π)σ22)

σ2

ε=у-ш

fε(ε)=2с2ϕ(ε/с2)Φ((-σ2σу)(ε/с2)),с22=σу2+σ22

0с2(-σ2σу)ϕΦσу=1,σ2=3введіть тут опис зображення

Отже, негативна скасованість, я б сказав, найбільш природне моделювання зусиль самої людської раси: завжди відхиляючись від свого уявленого ідеалу, - у більшості випадків відставання від нього (негативна частина щільності), хоча в порівняно менших випадках, виходить за рамки своїх сприйнятих меж (позитивна частина щільності). Самих студентів можна моделювати як таку виробничу функцію. Легко віднести симетричне порушення та однобічну помилку до аспектів реального життя. Я не уявляю, наскільки інтуїтивніше можна це зробити.


1
Ця відповідь, здається, є відлункою від пропозиції Glen_b про ступінь середнього рівня. Високо мотивована поведінка людини, спрямована на невловимий ідеал, безумовно, відповідає цьому сценарію! Ефективність в цілому - прекрасний приклад.
Нік Стаунер

2
@ Nick Stauner Важливим моментом тут є те, що ми вважаємо підписаним "фактичний мінус цілі", а не "відстань" в абсолютних значеннях. Ми тримаємо знак, щоб знати, чи ми вище, чи нижче цілі. Інтуїція тут полягає саме в тому, як ви пишете, що "високомотивована" поведінка підштовхне "фактичне" ближче до "цілі", створюючи асиметрію.
Алекос Пападопулос

1
@ NickStauner Дійсно, власний пост кваліфікованих результатів Silverfish у стрибках у довжину також стосується "високомотивованої поведінки" (враховуючи межі того, чого люди в даний час можуть досягти як свого роду неформальний "невловимий ідеал")
Glen_b -Встановити Моніку

6

Негативні перекоси поширені в гідрології повеней. Нижче наводиться приклад кривої частоти повені (Південний Крик на Mulgoa Rd, лат. -33.8783, лон. 150.7683), яку я взяв із "Австралійських опадів та стоків" (ARR), довідник з оцінки повеней, розроблений Інженерами, Австралія.

Є коментар в ARR:

При негативному перекосі, що часто зустрічається з логарифмічними значеннями повеней в Австралії, розподіл колоди Pearson III має верхню межу. Це дає верхню межу для повеней, які можна отримати із розповсюдження. У деяких випадках це може спричинити проблеми при оцінці повеней низького АЕП, але часто не викликає проблем на практиці. [Витягнуто з дощів та стоків Австралії - Том 1, Книга IV Розділ 2.]

Часто повені в певній місцевості вважаються верхньою межею, яка називається "ймовірний максимальний потоп" (PMF). Існують стандартні способи розрахунку ПМП.

введіть тут опис зображення


7
+1 Цей приклад добре показує, наскільки насправді виникає питання: коли ви вимірюєте повені з точки зору пікового скиду, вони будуть позитивно перекошені, але виміряні в розряді колоди, вони (мабуть) негативно перекошені. Аналогічно, будь-яка позитивна змінна може бути повторно виражена простим способом, який негативно перекриває її розподіл (лише шляхом прийняття відповідного негативного параметра Box-Cox). Все зводиться до того, що мається на увазі під «розумінням легко», я думаю - але це питання про студентів, а не про статистику.
whuber

5

Зміна цін (прибутковості) активів, як правило, має негативний перелік - багато невеликих підвищення цін при кількох великих падіннях цін. Нахил, схоже, стосується майже всіх видів активів: цін акцій, цін на товари тощо. Негативний перекіс можна спостерігати в щомісячних змінах цін, але це набагато помітніше, коли ви починаєте дивитися на щоденні або погодинні зміни цін. Я думаю, що це буде гарним прикладом, оскільки ви можете показати вплив частоти на перекос.

Детальніше: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/


Мені дуже подобається цей приклад! Чи існує інтуїтивно зрозумілий спосіб пояснення цього - по суті, "побічні поштовхи скоріше (або принаймні, ймовірніші, що будуть більш серйозні), ніж переломливі поштовхи"?
Срібна рибка

2
@Silverfish Я б назвав це як крайні негативні ринкові результати швидше, ніж екстремально позитивні ринкові результати. Ринки також мають асиметричну волатильність. Волатильність ринку, як правило, збільшується більше після негативної віддачі, ніж позитивної віддачі. Це часто моделюється з моделями Garch, такими як GJR-Garch (див. Запис Вікіпедії Arch).
Джон

3
Я також побачив пояснення, що погані новини випускаються пучками. Я не використовував GJR-GARCH. Я намагався використовувати мультифрактальний броунівський рух (Мандельброт) для моделювання асиметрії, але не зміг змусити його працювати.
wcampbell

4
Це в кращому випадку спрощено. Наприклад, я щойно взяв набір даних щодо щоденних доходів за 31 індексом власного капіталу. Більше половини з них мають позитивне перекос (за допомогою косості Пірсона), а понад 70% - позитивні щодо міри 3 * (середня - середня) / stdev. Що стосується товарів, ви, як правило, бачите ще більше позитивного перекосу, оскільки потрясіння попиту та пропозиції можуть як швидко підвищити ціни (наприклад, нафту, газ та кукурудзу в останні роки).
Кріс Тейлор

5

Гестаційний вік при пологах (особливо для живонароджених) залишається перекошеним. Немовлята можуть народитися живими дуже рано (хоча шанси на продовження виживання невеликі, коли занадто рано), пік між 36-41 тижнем і швидко падають. Типово, що для жінок у США викликають 41/42 тижні, тому ми зазвичай не спостерігаємо багатьох пологів після цього моменту.


4

У рибному господарстві часто є приклади негативного перекосу через нормативні вимоги. Наприклад, розподіл по довжині риби, що випускається в рекреаційне рибальство; тому що іноді існує мінімальна довжина, яку повинна бути риба для того, щоб вона утримувала всю рибу під обмеженням, викидається. Але через те, що люди ловлять рибу там, де зазвичай є законна довжина риби, вона має тенденцію до негативного перекосу та режиму до верхньої юридичної межі. Законна тривалість, однак, не є суворим відрізанням. Через обмеження в мішках (або обмеження кількості риби, яку можна повернути на причал), люди все одно відкидають рибу законного розміру, коли вони ловлять більші риби.

наприклад, Саулс, Б. 2012. Підсумок даних про розподіл розміру та стан випуску червоних снайперських викидів з огляду рекреаційного рибальства в Мексиканській затоці. SEDAR31-DW11. СЕДАР, Північний Чарлстон, штат Колумбія. 29 с.


"Похит до великих розмірів" зазвичай трактується як позитивний перекіс, а не "негативний". Можливо, ви могли б пояснити цю відповідь ілюстрацією типового розподілу? Описані вами механізми - верхня межа регулятора та деяка тенденція до її перевищення - можуть призвести або до негативного, або до позитивного перекосу, залежно від усіченого розподілу риб невеликого розміру (і залежно від того, як вимірюється риба: косоокість їх масовий розподіл не був би таким самим, як косисть їх розподілу по довжині).
whuber

3

У цій темі було зроблено кілька чудових пропозицій. Що стосується вікової смертності, частота відмов машин часто є функцією машинного віку і потрапляє до цього класу розподілу. Крім уже відзначених фінансових факторів, функції та розподіли фінансових збитків, як правило, нагадують такі форми, особливо у випадку надзвичайних втрат, наприклад, як це виявлено в BIS III (Банку міжнародних розрахунків) оцінок очікуваного дефіциту (ES), або у BIS II значення ризику (VAR) як вхід до нормативних вимог щодо розподілу резервів капіталу.


2

Вік виходу на пенсію в США негативно перекошений. Більшість пенсіонерів старші, кілька людей виходять на пенсію порівняно молодими.


2

У теорії випадкових матриць розподіл Трейсі Відом має косну форму . Це розподіл найбільшого власного значення випадкової матриці. За симетрією найменше власне значення має негативний розподіл Трейсі Відом, і тому є косооким.

Це приблизно пов'язано з тим, що випадкові власні значення подібні зарядженим частинкам, які відштовхуються одна від одної, і, отже, найбільше власне значення має тенденцію відштовхуватися від решти. Ось перебільшена картина (зроблена звідси ):

введіть тут опис зображення


Праворубіжні розподіли мають позитивну спотвореність і тому не відповідають на питання.
whuber

@whuber: означає використовувати найменше власне значення. Виправлено.
Алекс Р.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.