Як моделювати цей непарний розподіл (майже зворотний J)


25

Моя залежна змінна, показана нижче, не відповідає жодному мені відомості про розподіл запасів. Лінійна регресія створює дещо ненормальні залишки з правою косою, які відносяться до передбачуваного Y незвичайним чином (2-й графік). Будь-які пропозиції щодо перетворень чи інші способи отримання найбільш вагомих результатів та найкращої точності прогнозування? Якщо можливо, я хотів би уникати незграбних категоризацій, скажімо, 5 значень (наприклад, 0, lo%, med%, hi%, 1).

введіть тут опис зображення

введіть тут опис зображення


7
Вам було б краще розповісти нам про ці дані та звідки вони походять: щось затиснуло розподіл, який природно виходить за межі інтервалу . Можливо, ви використовували якийсь метод вимірювання або статистичну процедуру, що не зовсім підходить для ваших даних. Спроба виправити таку помилку витонченими методами пристосування для розподілу, нелінійними повторними виразами, бінінг тощо, просто поглибить помилку, тому було б непогано взагалі обійти проблему. [0,1]
whuber

2
@whuber - Гарна думка, але змінна була створена за допомогою складної бюрократичної системи, яка, на жаль, встановлена ​​в камені. Я не маю права розкривати характер змінних тут.
rolando2

1
Гаразд, варто було зняти. Я думаю, що замість трансформації даних, ви все ще можете розпізнати механізм затискання у формі процедури ML, щоб зробити регресію: це було б подібним до перегляду цих даних як цензур лівої та правої цензури. .
whuber

Спробуйте бета-розподіл із параметрами, меншими за одиницю, en.wikipedia.org/wiki/File:Beta_distribution_pdf.svg
Alecos Papadopoulos

2
Цей тип ванни або U-подібний розподіл поширений у читацькій аудиторії журналів, де багато людей прочитають один випуск публікації, наприклад, у лікарні або іншому - передплатники, які бачать кожне видання, маючи кількість читачів між ними. Кілька коментарів і відповідей вказали на бета-розподіл як на одне можливе рішення. Література, з якою я знайомий, вказує на бета-біноміал як найкращий варіант.
Майк Хантер

Відповіді:


47

Методи цензурованої регресії можуть обробляти такі дані. Вони припускають, що залишки поводяться як у звичайній лінійній регресії, але були модифіковані так

  1. (Ліва цензура): усі значення, менші за низький поріг, який не залежить від даних, (але може змінюватись від одного випадку до іншого), не були кількісно визначені; та / або

  2. (Права цензура): усі значення, що перевищують високий поріг, незалежний від даних (але може змінюватись від одного випадку до іншого), не були кількісно визначені.

"Не кількісно оцінено" означає, що ми знаємо, падає чи ні значення нижче (або вище) його порогового значення, але це все.

Методи підгонки зазвичай використовують максимальну ймовірність. Коли модель відповіді відповідна вектору X, знаходиться у форміYX

YXβ+ε

при iid що має спільний розподіл F σ з PDF f σ (де σ невідомі "параметри неприємностей"), тоді - за відсутності цензури - ймовірність журналу спостережень ( x i , y i ) єεFσfσσ(xi,yi)

Λ=i=1nlogfσ(yixiβ).

При наявності цензури ми можемо розділити випадки на три (можливо, порожні) класи: для індексів до n 1 , y i містять нижнє порогове значення та представляють ліві цензурні дані; для індексів i = n 1 + 1 до n 2 , y i кількісно визначені; а для решти індексів y i містять верхні порогові значення і представляють правильну цензуруi=1n1yii=n1+1n2yiyiдані. Імовірність журналу отримується так само, як і раніше: це журнал добутку ймовірностей.

Λ=i=1n1logFσ(yixiβ)+i=n1+1n2logfσ(yixiβ)+i=n2+1nlog(1Fσ(yixiβ)).

(β,σ)

На мій досвід, такі методи можуть добре працювати, коли цензуру проводять менше половини даних; в іншому випадку результати можуть бути нестабільними.


Ось простий Rприклад використання censRegпакету, щоб проілюструвати, як результати OLS та цензури можуть відрізнятися (багато) навіть при великій кількості даних. Це якісно відтворює дані у питанні.

library("censReg")
set.seed(17)
n.data <- 2960
coeff  <- c(-0.001, 0.005)
sigma  <- 0.005
x      <- rnorm(n.data, 0.5)
y      <- as.vector(coeff %*% rbind(rep(1, n.data), x) + rnorm(n.data, 0, sigma))
y.cen           <- y
y.cen[y < 0]    <- 0
y.cen[y > 0.01] <- 0.01
data = data.frame(list(x, y.cen))

0.0050.0010.005

Давайте використаємо обидва lmта censRegпідходимо до рядка:

fit <- censReg(y.cen ~ x, data=data, left=0.0, right=0.01)
summary(fit)

Результати цієї цензурованої регресії, наведені компанією print(fit), є

(Intercept)           x       sigma 
  -0.001028    0.004935    0.004856 

0.0010.0050.005

fit.OLS <- lm(y.cen ~ x, data=data)
summary(fit.OLS)

Придатність OLS, надана компанією print(fit.OLS), є

(Intercept)            x  
   0.001996     0.002345  

summary0.002864

Для порівняння обмежимо регресію кількісно оціненими даними:

fit.part <- lm(y[0 <= y & y <= 0.01] ~ x[0 <= y & y <= 0.01])
summary(fit.part)

(Intercept)  x[0 <= y & y <= 0.01]  
   0.003240               0.001461  

Навіть гірше!

Кілька картинок узагальнюють ситуацію.

lineplot <- function() {
  abline(coef(fit)[1:2], col="Red", lwd=2)
  abline(coef(fit.OLS), col="Blue", lty=2, lwd=2)
  abline(coef(fit.part), col=rgb(.2, .6, .2), lty=3, lwd=2)
}
par(mfrow=c(1,4))
plot(x,y, pch=19, cex=0.5, col="Gray", main="Hypothetical Data")
lineplot()
plot(x,y.cen, pch=19, cex=0.5, col="Gray", main="Censored Data")
lineplot()
hist(y.cen, breaks=50, main="Censored Data")
hist(y[0 <= y & y <= 0.01], breaks=50, main="Quantified Data")

Сюжети

00.01

Y0.00320.0037


чудова відповідь (+1). Якби ми візуально видалили два цензури цензури, мені здається, що залежна змінна має щось близьке до експоненціального розподілу, як ніби основні дані - це тривалість якогось процесу. Це щось врахувати?
user603

@ user603 Я імітував кількісні значення з частиною верхньої частини гаусса, фактично :-). Тут ми повинні подбати, тому що відповідна модель вірогідності стосується залишків, а не самої змінної відповіді. Хоча це трохи хитро, можна зробити цензуровані залишкові сюжети та навіть цензуровані ймовірнісні сюжети, щоб оцінити доброту пристосованості до якогось гіпотетичного розподілу.
whuber

моя думка полягає в тому, що при подвійному цензурі Гауссана гістограма нецензурованих значень повинна бути дещо плоскою, але вони, здається, обережно зменшуються, коли ми відходимо від 0.
user603

1
@ user603 Ага, ні, це не так: погляньте на гістограму кількісно визначених значень самостійно. Вони будуть здаватися нахилами майже лінійно вниз, точно так само, як у питанні.
whuber

2
Я спробував цензуровану регресію на моєму наборі даних, і результати перекреслювались краще, ніж результати OLS. Приємне доповнення до мого набору інструментів - thx.
rolando2

9

Чи завжди значення знаходяться між 0 і 1?

Якщо так, то ви можете розглянути можливість бета-розподілу та бета-регресії.

Але не забудьте продумати процес, який веде до ваших даних. Ви також можете зробити надуту модель 0 і 1 (0 надутих моделей є звичайними; вам, ймовірно, потрібно буде поширитись до 1 надутої вашою самості). Велика різниця полягає в тому, що ці шипи представляють велику кількість точних 0 і 1 або просто значення, близькі до 0 і 1.

Можливо, найкраще проконсультуватися з місцевим статистиком (з угодою про нерозголошення, щоб ви могли обговорити деталі, звідки беруться дані), щоб розробити найкращий підхід.


2
01

Так, завжди в діапазоні від 0% до 1% ... І справді ці шипи точно на рівні 0% і 1%. Чи застосовані такі моделі, як нульовий чи нульовий і один завищений для даних, що не враховуються, такі?
rolando2

1
Існує нуль завищеної норми, але це не стосується тут.
Пітер Флом - Відновити Моніку

З точними 0 та 1, але безперервний між ними схожий вигляд може бути базовим безперервним розподілом із значеннями поза цим регіоном, округленими до 0 або 1. Це був би подвійний цензурний випадок, і моделі, які могли б відповідати цій ідеї.
Грег Сніг

4

Відповідно до порад Грега Сноу, я чув, що бета-моделі також є корисними і в таких ситуаціях (див. Smithson & verkuilen, 2006, A Better Lemon Squeezer ), а також квантильної регресії ( Bottai et al., 2010 ), але ці здаються такими яскраво вираженими ефектами підлоги та стелі, що вони можуть бути недоречними (особливо бета-регресія).

Іншою альтернативою може бути розглянути типи цензурованих регресійних моделей, зокрема модель Тобіта , де ми вважаємо, що спостережувані результати породжуються деякою базовою латентною змінною, яка є безперервною (і, мабуть, нормальною). Я не збираюся говорити, що ця основна безперервна модель є розумною з огляду на вашу гістограму, але ви можете знайти для неї деяку підтримку, оскільки бачите, що розподіл (ігнорування підлоги) має більш високу щільність при менших значеннях інструменту і повільно скорочується на вище значення.

Хоча вдало, що цензура є настільки драматичною, що важко уявити, як отримати надзвичайно корисну інформацію в межах крайніх груп. Мені здається, що майже половина вашого зразка потрапляє в підлоги та стелі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.