Чим відрізняється логістична регресія від регресії дробової реакції?


13

Наскільки мені відомо, різниця між логістичною моделлю та моделлю дробового реагування (frm) полягає в тому, що залежна змінна (Y), в якій frm, [0,1], але логістична - {0, 1}. Крім того, frm використовує квазіімовірність для визначення його параметрів.

Зазвичай ми можемо використовувати glmдля отримання логістичних моделей за glm(y ~ x1+x2, data = dat, family = binomial(logit)).

Для frm ми переходимо family = binomial(logit)на family = quasibinomial(logit).

Я помітив, що ми також можемо використовувати family = binomial(logit)параметр frm, оскільки він дає ті самі оцінені значення. Дивіться наступний приклад

library(foreign)
mydata <- read.dta("k401.dta")


glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = binomial('logit'))
summary(glm.bin)

повернути,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = binomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.074e+00  8.869e-02  12.110  < 2e-16 ***
mrate        5.734e-01  9.011e-02   6.364 1.97e-10 ***
age          3.089e-02  5.832e-03   5.297 1.17e-07 ***
sole         3.636e-01  9.491e-02   3.831 0.000128 ***
totemp      -5.780e-06  2.207e-06  -2.619 0.008814 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: 1997.6

Number of Fisher Scoring iterations: 6

А для family = quasibinomial('logit'),

glm.quasi <- glm(prate ~ mrate + age + sole + totemp, data = mydata
,family = quasibinomial('logit'))
summary(glm.quasi)

повернути,

Call:
glm(formula = prate ~ mrate + age + sole + totemp, family = quasibinomial("logit"), 
    data = mydata)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-3.1214  -0.1979   0.2059   0.4486   0.9146  

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.074e+00  4.788e-02  22.435  < 2e-16 ***
mrate        5.734e-01  4.864e-02  11.789  < 2e-16 ***
age          3.089e-02  3.148e-03   9.814  < 2e-16 ***
sole         3.636e-01  5.123e-02   7.097 1.46e-12 ***
totemp      -5.780e-06  1.191e-06  -4.852 1.26e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.2913876)

    Null deviance: 1166.6  on 4733  degrees of freedom
Residual deviance: 1023.7  on 4729  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 6

Орієнтовна бета-версія для обох familyоднакова, але різниця - значення SE. Однак, щоб отримати правильний SE, ми повинні використовувати, library(sandwich)як у цій публікації .

Тепер мої запитання:

  1. Яка різниця між цими двома кодами?
  2. Чи збирається frm отримати надійний SE?

Якщо я не розумію, будь ласка, дайте кілька пропозицій.

Відповіді:


11

Якщо ваше запитання: в чому різниця між цими двома кодами?

Погляд на ?glmкаже See family for details of family functions, а погляд на ?familyвиявляє такий опис:

Сімейства квазібіноміальних і квазіпойсонів відрізняються від сімейства біноміальних та пуассонових лише тим, що параметр дисперсії не фіксований одразу, тому вони можуть моделювати наддисперсію.

Це також те, що ви бачите у своєму результаті. І в цьому різниця між обома моделями / кодами.

Якщо ваше запитання: в чому різниця між логістичною регресією і регресією дробової реакції?

Як ви правильно визначите, модель є логістичною, якщо ваші залежні змінні або 0, або 1. Papke і Wooldridge показали, що ви можете використовувати GLM такої форми як для дробів, так і для оцінки параметрів, але вам потрібно обчислити надійні стандартні помилки. Це не потрібно для логістичної регресії, і насправді, деякі люди вважають, що не слід обчислювати надійні стандартні помилки в моделях probit / logit. Хоча це інша дискусія.

Теоретична основа походить із відомої праці Гуріро, Монфор та Троньонав Econometrica в 1984 р. Вони показують, що (за деяких умов регулярності тощо) максимальні параметри ймовірності, отримані шляхом максимізації ймовірності, що належать до лінійного експоненціального сімейства, є послідовними оцінками параметрів, що належать до будь-якої іншої вірогідності в лінійному експоненціальному сімействі. Отже, в деякому сенсі ми тут використовуємо логістичний розподіл, хоча це не зовсім правильний, але параметри все ще відповідають параметрам, які ми хочемо отримати. Отже, якщо ваше запитання походить від спостереження, що ми використовуємо ту саму функцію ймовірності для оцінки як логістичної, так і дробової моделей відповідей, за винятком того, що ми обмінюємо природу залежної змінної, то це інтуїція.


як можна виміряти продуктивність frm? Чи можемо ми використовувати MSE як лінійну регресію?
новачок

1
Це зовсім інше питання. Будь ласка, опублікуйте його як новий.
coffeinjunky
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.