Як оцінити третій квартал бінних даних?


12

Чи є якийсь технічний трюк для визначення третього кварталу, якщо він належить до відкритого інтервалу, який містить більше чверті населення (тому я не можу закрити інтервал і використовувати стандартну формулу)?

Редагувати

У випадку, якщо я щось неправильно зрозумів, я надам більш-менш повний контекст. У мене дані розташовані в таблиці з двома стовпцями і, скажімо, 6 рядками. Кожному стовпцю відповідає інтервал (у першому стовпці) та кількість сукупності, яка "належить" до цього інтервалу. Останній інтервал є відкритим і включає понад 25% населення. Усі інтервали (за винятком останніх) мають однаковий діапазон.

Зразкові дані (транспоновані для презентації):

Column 1: (6;8),(8;10),(10;12),(12;14),(14;16),(16;∞)
Column 2:    51,    65,     68,     82,     78,   182 

Перший стовпець слід інтерпретувати як діапазон рівня доходу. Друге - трактувати як кількість працівників, чий дохід належить до інтервалу.

Стандартна формула, про яку я думаю, - .Q3=xQ3+3N4i=1k1ninQ3rQ3


Поширене припущення при спробі оцінювання квантових даних із породженими даними полягає в тому, щоб припустити однаковість у бункерах. Але коли ви знаєте щось про спосіб розподілу даних (як це стосується доходів, які є правильним перекосом), припущення, які відображають, що знання, як правило, будуть кращими. Іншою альтернативою може бути припущення, що воно згладжує, а потім згладжує дані (чи то KDE, чи якийсь пристосований дистрибутив), перерозподіляючи точки в бункерах відповідно до моделі [& можливо повторно оцінювати (дещо схожим на ЕМ) придатність, & знову перерозподілити в бункерах], а потім оцінити кванти з цього.
Glen_b -Встановити Моніку

Відповіді:


16

Вам потрібно узгодити ці подрібнені дані до якоїсь дистрибутивної моделі, оскільки це єдиний спосіб екстраполяції у верхній квартал.

Модель

За визначенням, така модель задається cadlag функції висхідній від до . Ймовірність, яку він призначає будь-якому інтервалу є . Щоб зробити придатне, потрібно розмістити сімейство можливих функцій, індексованих параметром (вектор) , . Якщо припустити , що зразок узагальнює збори людей , обраних випадковим чином і незалежно від популяції , описуваної деяких специфічних (але невідомо) , ймовірність зразка (або ймовірності , ) є продуктом особистості ймовірності. У прикладі це дорівнювало б0 1 ( a , b ] F ( b ) - F ( a ) θ { F θ } F θ LF01(a,b]F(b)F(a)θ{Fθ}FθL

L(θ)=(Fθ(8)Fθ(6))51(Fθ(10)Fθ(8))65(Fθ()Fθ(16))182

тому що чоловік має асоційовані ймовірності , мають ймовірності тощо.F θ ( 8 ) - F θ ( 6 ) 65 F θ ( 10 ) - F θ ( 8 )51Fθ(8)Fθ(6)65Fθ(10)Fθ(8)

Підгонка моделі до даних

Оцінка максимальної правдоподібності з є значення , яке максимізує (або, що еквівалентно, логарифм ).L LθLL

Розподіл доходів часто моделюється лонормальними розподілами (див., Наприклад, http://gdrs.sourceforge.net/docs/PoleStar_TechNote_4.pdf ). Написавши , сімейство лонормальних розподілів єθ=(μ,σ)

F(μ,σ)(x)=12π(log(x)μ)/σexp(t2/2)dt.

Для цієї родини (та багатьох інших) просто оптимізувати чисельно. Наприклад, ми б написали функцію для обчислення а потім оптимізували її, оскільки максимум збігається з максимумом самого і (зазвичай) простіше обчислити і чисельніше стабільніше працювати:журнал ( L ( θ ) ) журнал ( L ) L журнал ( L )LRlog(L(θ))log(L)Llog(L)

logL <- function(thresh, pop, mu, sigma) {
  l <- function(x1, x2) ifelse(is.na(x2), 1, pnorm(log(x2), mean=mu, sd=sigma)) 
                        - pnorm(log(x1), mean=mu, sd=sigma)
  logl <- function(n, x1, x2)  n * log(l(x1, x2))
  sum(mapply(logl, pop, thresh, c(thresh[-1], NA)))
}

thresh <- c(6,8,10,12,14,16)
pop <- c(51,65,68,82,78,182)
fit <- optim(c(0,1), function(theta) -logL(thresh, pop, theta[1], theta[2]))

Рішення в цьому прикладі є , знайдене у значенні .θ=(μ,σ)=(2.620945,0.379682)fit$par

Перевірка припущень моделі

Нам потрібно принаймні перевірити, наскільки це відповідає відповідній передбачуваній логічності, тому ми запишемо функцію для обчислення :F

predict <- function(a, b, mu, sigma, n) {
  n * ( ifelse(is.na(b), 1, pnorm(log(b), mean=mu, sd=sigma)) 
        - pnorm(log(a), mean=mu, sd=sigma) )

Він застосовується до даних для отримання пристосованих або "передбачуваних" популяцій сміття:

pred <- mapply(function(a,b) predict(a,b,fit$par[1], fit$par[2], sum(pop)), 
               thresh, c(thresh[-1], NA))

Ми можемо скласти гістограми даних та прогноз, щоб порівняти їх візуально, показані в першому рядку цих графіків:

Гістограми

Для їх порівняння ми можемо обчислити статистику хі-квадрата. Зазвичай це називається розподілом у квадраті для оцінки значущості :

chisq <- sum((pred-pop)^2 / pred)
df <- length(pop) - 2
pchisq(chisq, df, lower.tail=FALSE)

"P-значення" є досить малим, щоб багато людей відчували себе не підходящим. Дивлячись на сюжети, проблема, очевидно, зосереджується на найнижчому відро. Можливо, нижній кінець повинен був дорівнювати нулю? Якщо ми дослідним способом мали б зменшити до чогось меншого, ніж , ми отримали відповідність, показану в нижньому ряду сюжетів. Значення p-квадратичного значення зараз становить , що вказує (гіпотетично, оскільки ми суто перебуваємо в дослідницькому режимі), що ця статистика не знаходить суттєвої різниці між даними та придатністю.6 - 8 6 3 0,400.008768630.40

Використовуючи придатність для оцінювання квантів

Якщо ми визнаємо, що (1) доходи приблизно логічно розподілені і (2) нижня межа доходів менше (скажімо ), то максимальна оцінка ймовірності - = . За допомогою цих параметрів ми можемо перетворити для отримання перцентилю:3 ( μ , σ ) ( 2.620334 , 0.405454 ) F 75 тис63(μ,σ)(2.620334,0.405454)F75th

exp(qnorm(.75, mean=fit$par[1], sd=fit$par[2]))

Значення - . (Якби ми не змінили нижню межу першого сміття з на , ми отримали б замість цього .)6 3 17.7618.066317.76

Ці процедури та цей код можна застосовувати загалом. Теорія максимальної ймовірності може бути додатково використана для обчислення довірчого інтервалу навколо третього кварталу, якщо це цікавить.


Нічого, дякую! Мушу визнати, що я не очікував, що таке розширене (принаймні для мене) обладнання буде використане для пошуку рішення.
атад

Машини не повинні бути вдосконаленими або вдосконаленими, але все, що ви робите, слід дотримуватися тих самих загальних положень цього прикладу: припустіть щось про розподіл доходу, використовуйте це, щоб підходити до математичної моделі, перевіряйте модель на розумність, і якщо це розумне пристосування, використовуйте його для обчислення квартиля. Попутно використовуйте графічні методи, оскільки вони можуть виявити цікаві закономірності. (Тут інтерес полягає в тому, що в діапазоні з низьким рівнем доходу очевидний відхід від логічності : мені було б цікаво, чому це відбувається і що це може сказати про це населення.)
whuber

+1, чудова відповідь. Схоже, мені ще доведеться вивчити R.
дан

8

Занадто довго для коментаря:

Відповідь катрів настільки ж хороша, як і будь-яка, але він вважає, що у своїй звичайній моделі журналу правильність перекосується. Це може бути реально для доходів над загальним населенням, але не може бути доходом для одного роботодавця в конкретному рівні.

68645017.5

8017.3

17


1
16
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.