Як обчислити середню тривалість прихильності вегетаріанства, коли ми маємо лише дані опитування про поточних вегетаріанців?


16

Було обстежено випадкову вибірку популяції. Їх запитали, чи їдять вони вегетаріанську дієту. Якщо вони відповіли "так", їх також попросили вказати, як довго вони їдять вегетаріанську дієту без перешкод. Я хочу використовувати ці дані для обчислення середньої тривалості прихильності до вегетаріанства. Іншими словами, коли хтось стає вегетаріанцем, я хочу знати, що в середньому вони залишаються вегетаріанцями. Припустимо, що:

  • Усі респонденти дали правильні та точні відповіді
  • Світ стабільний: популярність вегетаріанства не змінюється, не змінюється і середня тривалість прихильності.

Мої міркування поки що

Мені було корисно проаналізувати модель іграшок світу, де на початку кожного року двоє людей стають вегетаріанцями. Щоразу один з них залишається вегетаріанцем 1 рік, а інший - 3 роки. Очевидно, середня тривалість прихильності в цьому світі становить (1 + 3) / 2 = 2 роки. Ось графік, що ілюструє приклад. Кожен прямокутник являє собою період вегетаріанства:

ілюстрація

Скажімо, ми проводимо опитування в середині 4 року (червона лінія). Ми отримуємо такі дані:

стіл

Ми отримаємо ті самі дані, якби ми взяли опитування в будь-який рік, починаючи з третього року. Якщо ми просто оцінюємо відповіді, які ми отримуємо:

(2 * 0,5 + 1,5 + 2,5) / 4 = 1,25

Ми недооцінюємо, оскільки вважаємо, що всі перестали бути вегетаріанцями відразу після опитування, що, очевидно, неправильно. Щоб отримати оцінку, що ближче до реального середнього часу, коли ці учасники залишатимуться вегетаріанцями, можна припустити, що в середньому вони повідомили про час приблизно на півдорозі свого періоду вегетаріанства та помножили тривалість повідомлення на 2. У великому опитуванні малювали випадковим чином з населення (на зразок тієї, яку я аналізую), я вважаю, що це реально припущення. Принаймні, це дасть правильне очікуване значення. Однак якщо подвоєння - це єдине, що ми робимо, ми отримуємо в середньому 2,5, що є завищеним. Це тому, що чим довше людина залишається вегетаріанцем, тим більше шансів (і) він опинитися у вибірці нинішніх вегетаріанців.

Тоді я подумав, що ймовірність того, що хтось є у вибірці нинішніх вегетаріанців, пропорційна їх тривалості вегетаріанства. Щоб пояснити цю упередженість, я намагався розділити кількість поточних вегетаріанців на їх передбачувану тривалість прихильності:

ще одна таблиця

Однак це дає і невірне середнє значення:

(2 * 1 + ⅓ * 3 + ⅕ * 5) / (2 + ⅓ + ⅕) = 4 / 2,533333 = 1,579 року

Це дасть правильну оцінку, якби кількість вегетаріанців розділили на їх правильну довжину прихильності:

(1 + ⅓ * (1 + 3 + 5)) / (1 + ⅓ * 3) = 2 роки

Але це не спрацьовує, якщо я використовую передбачувані довжини дотримання, і вони є все, що я маю насправді. Я не знаю, що ще спробувати. Я читав трохи про аналіз виживання, але не знаю, як його застосувати в цьому випадку. В ідеалі я також хотів би мати можливість обчислити 90% довірчий інтервал. Будь-які поради були б дуже вдячні.

EDIT: Можливо, на вищезазначене питання немає відповіді. Але також було ще одне дослідження, яке запитувало випадкову вибірку людей, чи є вони / були вегетаріанцями і скільки разів вони були вегетаріанцями в минулому. Я також знаю вік кожного в навчанні та в деяких інших речах. Можливо, ця інформація може бути використана разом із опитуванням сучасних вегетаріанців, щоб якось отримати середнє значення. Насправді, дослідження, про яке я говорив, - це лише одна частина головоломки, але дуже важлива і я хочу отримати її більше.


1
Це не варіант атм. Ці дані безумовно дають певні докази тривалості прихильності, я просто не знаю, як їх використовувати.
Saulius Šimčikas

1
Принаймні одне із ваших зображень, схоже, зникло (помилка 403, коли я використовую URL-адресу).
barrycarter

2
@kjetilbhalvorsen Проблема не має значення, чи вегетаріанці все життя залишаються вегетаріанцями. У якийсь момент вони перестануть бути вегетаріанцями, або їдять м'ясо, або вмираючи.
Пер

4
@kjetil Ваш коментар "справжніх вегетаріанців" звучить дещо як не справжній шотландець . Звичайне визначення вегетаріанця нічого не говорить про те, що може статися в майбутньому, ні про те, чому хтось вегетаріанець, а лише про їх поведінку під час розгляду атрибута. Якщо хтось зараз вегетаріанець, він зараз вегетаріанець, з будь-якої причини вони стають одним. Я не думаю, що наші особисті почуття щодо ідеї вживання м'яса чи причин, чому ми можемо відчувати себе так, - це тема; вони належать десь ще.
Glen_b -Встановіть Моніку

2
Оскільки люди, які є вегетаріанцями довше, більш схильні до вибору у вашій вибірці, це означає, що функція густини ймовірностей ваших даних вибірки пропорційна одному мінус сукупної функції розподілу довжин приєднання. Щоб зробити приклад з вашого прикладу, розподіл довжин становить [0, 0,5, 0, 0,5] (50% за останній рік, 50% за 3 роки), даючи CDF [0, 0,5, 0,5, 1 ], з одним мінусом, який становить [1, 0,5, 0,5, 0], пропорційний [2, 1, 1, 0] підрахунків вашої вибірки.
PhiNotPi

Відповіді:


10

fX(x)XEX=0xfX(x)dx

SXX

fX|S(x)=xfX(x)xfX(x)dx=xfX(x)EX.
ZXS
fZ|X=x(z)=1x,0<z<x.
Z
fZ(z)=zfZ|X=x(z)fX|S(x)dx=z1xxfX(x)EXdx=1FX(z)EX,
FX(z)XXFX(0)=P(X0)=0fZ(0)=1/EX

EXfZ(z)z1,z2,,znz=0fZ(z)z=0f^Z(0)fZ(z)z=0EXEX^=1/f^Z(0)

введіть тут опис зображення

fZ(z)fX(0)=FX(0)>0fZ(0)EXEX у таких ситуаціях без створення більше припущень здається важким, по суті тому, що короткі терміни прихильності, наявні в цій ситуації, навряд чи виявляються в спостережуваних даних в результаті упередженої вибірки.

fX(x)

L(θ)=i=1n1FX(zi;θ)EX(θ)

R-код, що імітує дані та реалізує обидва способи:

# Simulate lognormal duration length in population
set.seed(1)
n <- 1e+4
x <- rlnorm(n,mean=2,sd=.2)
# Biased sampling
x.given.S <- sample(x, size=n/10, prob=x, replace=TRUE)
# Duration at time of sampling
z <- runif(length(x.given.S),min=0, max=x.given.S)
hist(z,prob=TRUE,main="")

# Compute kernel density estimate with reflection around z=0
to <- max(x) + 3
fhat <- density(z,from = -to, to=to)
m <- length(fhat$y)
fhat$y <- fhat$y[(m/2+1):m] + fhat$y[(m/2):1]
fhat$x <- fhat$x[(m/2+1):m]
lines(fhat,col="red")
# Estimate of EX
1/fhat$y[1]
# True value (mean of above lognormal)
exp(2+.2^2/2)

# Maximum likelihood
nll <- function(theta, z) {
  - sum(plnorm(z, theta[1], theta[2], log.p=TRUE, lower.tail = FALSE)) + length(z)*(theta[1] + theta[2]^2/2)
}
fit <- optim(c(0,1),nll,z=z)
fit$par
EXhat <- exp(fit$par[1]+fit$par[2]^2/2) # MLE of EX
EXhat
curve(plnorm(z, fit$par[1], fit$par[2], lower.tail=FALSE)/EXhat, xname="z", col="blue",add=TRUE)

1
Гей, велике спасибі за відповідь, я ще не встиг розібратися у всьому, просто хотів додати, що я знаю загальне поширення з того іншого дослідження. (Єдиною проблемою з іншого дослідження є те, що він змусив людей вибирати між варіантами, як довго вони були вегетаріанцями, і одним із варіантів було "Більше 10 років", а середнє значення майже повністю залежить від того, наскільки довше 10 років люди залишаються вегетаріанцями)
Сауліус Шімчікас

Гаразд, я сподіваюся, що в моїх міркуваннях немає великих вад. Я бачу, що @PhiNotPi приходить до того ж pdf у своєму коментарі до ОП.
Jarle Tufto

@Saulius Якщо у вас є доступ до другого правого цензурованого набору даних і базові розподіли дійсно можна вважати однаковими, то ідеальним рішенням було б поєднати ймовірність для цього набору даних (що просто записати, якщо це просто кілька правильних цензурованих проб), а потім максимально збільшити ймовірність суглобів.
Jarle Tufto

це неправильно піддається цензурі: imgur.com/U8ofZ3A Зараз я розумію, що мені довелося це згадати на початку, але я подумав, що моя проблема має щось більш прямолінійне рішення ...
Сауліус Шімчікас

@Saulius Ці дані цензуровані інтервалом. Знову ж таки, просто обчислити ймовірність.
Jarle Tufto

0

(Я вирішив додати це, як видається, @JarleTufto вже дав приємний математичний підхід; проте я недостатньо розумний, щоб зрозуміти його відповідь, і зараз мені цікаво, чи це точно такий самий підхід, чи якщо підхід, який я описую нижче, коли-небудь має користь.)

Що я б робив, це здогадуватися середньої довжини та здогадуватися про кілька розподілів навколо неї, а потім для кожного робити моделювання моєї сукупності та регулярно проводити вибірку.

Ви сказали, що припускаєте, що загальна чисельність вегетаріанців не змінюється, тому щоразу, коли в моїй моделі хтось зупиняється, створюється абсолютно новий вегетаріанець. Нам потрібно запустити модель протягом декількох модельованих років, щоб переконатися, що вона осіла, перш ніж ми можемо розпочати вибірку. Після цього я думаю, що ви можете брати зразки кожні змодельовані місяці (*), поки вам не вистачить для формування вашого 90% довірчого інтервалу.

*: або будь-яка роздільна здатність працює з вашими даними. Якщо люди давали відповідь у найближчий рік, вибірки кожні 6 місяців є досить хорошими.

З усіх ваших здогадок ви вибираєте середнє значення та розподіл, який (у середньому по всіх відібраних пробах) дає вам найближчий результат до того, що дало ваше реальне опитування.

Я хотів би повторити свої здогадки кілька разів, щоб звузити кращу відповідність.

Найкращий розподіл може бути не одноразовим. Екс-вегетаріанців, яких я особисто вважаю, зупинилися через серйозні зміни способу життя (як правило, виходять заміж / живуть з не-вегетаріанською або переїжджаючою країною, або тяжко хворіють, і лікар припускає, що це може бути дієтою); з іншого боку - сила звички: чим довше ти вегетаріанець, тим більше шансів на те, що ти будеш бути таким. Якби ваші дані запитували вік та статус стосунків, ми могли б також зауважити це у наведеному вище моделюванні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.