Бета-регресія даних пропорцій, включаючи 1 і 0


19

Я намагаюся створити модель, для якої у мене є змінна відповідь, яка є пропорцією між 0 і 1, сюди входить досить багато 0 і 1, але також багато значень між ними. Я думаю про спробу бета-регресії. Пакет, який я знайшов для R (betareg), допускає значення лише між 0 і 1, але не враховуючи 0 або 1 себе. Я читав в інших місцях, що теоретично бета-розподіл повинен вміти обробляти значення 0 або 1, але я не знаю, як впоратися з цим в RI, я бачив, як деякі люди додають 0,001 до нулів і приймають 0,001 від тих, але я не впевнений, що це гарна ідея?

Крім того, я міг logit перетворити змінну відповіді та використовувати лінійну регресію. У цьому випадку у мене така ж проблема з 0 і 1, яку неможливо перетворити в журнал.


Знання підрахунків - не лише пропорцій - має вирішальне значення незалежно від того, що ви робите. Але після того, як ви порахуєте, перша модель, яку слід розглянути, навіть якщо це лише точка відходу, - це логістична регресія.
whuber

Що ж, бета-версія становить від 0 до 1 ( майже напевно ). Якщо ви спостерігаєте за ними, ви повинні використовувати модель, яка дає можливість спостерігати за вашим зразком. Кілька відповідей, схоже, охоплюють такий підхід; Я б почав з них.
Glen_b -Встановіть Моніку

Відповіді:


18

Ви можете використовувати нульові та / або завищені бета-регресійні моделі, які поєднують бета-розподіл із виродженим розподілом, щоб призначити певну ймовірність 0 та 1 відповідно. Детальніше див. У наступних посиланнях:

Ospina, R., & Ferrari, SLP (2010). Завищені бета-розподіли. Статистичні статті, 51 (1), 111-126. Ospina, R., & Ferrari, SLP (2012). Загальний клас моделей бета-регресії завищеної нуля або один. Обчислювальна статистика та аналіз даних, 56 (6), 1609 - 1623.

Ці моделі легко реалізувати за допомогою пакету gamlss для Р.


Чи є у вас приклад, як їх реалізувати на R?
Очистити

2
@Очистити zoibпакет робить це легко.
Марк Білий

11

У документації на betaregпакет R зазначається це

якщо y також передбачає крайності 0 і 1, корисним перетворенням на практиці є (y * (n − 1) + 0,5) / n, де n - розмір вибірки.

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

Вони дають посилання Smithson M, Verkuilen J (2006). "Кращий віджимач лимона? Регрес максимальної ймовірності з бета-розподіленими залежними змінними." Психологічні методи, 11 (1), 54–71.


1

Ви не робите перетворення logit, щоб зробити змінну від мінус нескінченності до плюс нескінченності? Я не впевнений, чи мають бути дані, що мають 0 та 1. Це відображає повідомлення про помилку? До речі, якщо у вас тільки пропорції, ваш аналіз завжди вийде неправильним. Ви повинні використовувати , weight=argumentщоб glmз числом випадків.

Якщо нічого не працює, ви можете використовувати медіанний розкол або четвертий розкол або будь-яку точку зрізу, яку ви вважаєте за потрібне розділити DV на кілька категорій, а потім замість цього виконати звичайну логістичну регресію. Це може спрацювати. Спробуйте ці речі.

Я особисто не вважаю, що додавання 0,001 до нулів і взяття 0,001 з них - це занадто погана ідея, але у нього є деякі проблеми, про які піде мова пізніше. Подумайте, чому б вам не додати і відняти 0,000000001 (або навіть більше десяткових знаків)? Це буде краще представляти 0 і 1 !! Вам може здатися, що це не має великого значення. Але це насправді так.

Давайте подивимось наступне:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

Отже, бачите, шанси потрібно тримати так само, як (0/1) та (1/0). Ви очікуєте, що коефіцієнт журналу коливається від мінус нескінченності до плюс нескінченності. Отже, щоб додати або відняти, вам потрібно вибрати до дійсно дійсно довгого десяткового знаку, щоб шанси журналу стали близькими до нескінченності (або дуже великої) !! Те, наскільки ви вважаєте себе досить великим, залежить виключно від вас.


1

Перегляньте наступне, де згадується спеціальна трансформація maartenbuis.nl/presentations/berlin10.pdf на слайді 17. Також ви можете моделювати 0 і 1 з двома окремими логістичними регресіями, а потім використовувати бета-регресію для тих, хто не знаходиться на кордоні.


1
(y(n1)+0.5)/nn

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.