Різниця між моделями logit і probit

299

У чому різниця між логит і пробитий моделі ?

Мені більше цікаво знати, коли використовувати логістичну регресію та коли використовувати Probit.

Якщо є література, яка визначає її за допомогою R , це також було б корисно.

— Бета-версія
джерело

5

Навряд чи існує різниця між результатами двох (див. Paap & Franses 2000)

1

Я колись мав обширний (біологічний аналіз) набір даних, де ми могли бачити пробіт, придатний незначно краще, але це не мало значення для висновків.

— kjetil b halvorsen

1

@Alyas Shah: і це пояснення, чому з моїми даними пробіт краще (незначно) краще --- тому що вище певної дози смертність становить 100%, а нижче деякого порогу, смертність становить 0%, тому ми не бачимо повільний підхід логіта!

— kjetil b halvorsen

3

Для реальних даних, протиставляючи дані, отримані з logit або probit, уважним підходом до питання було б проведення порівняння моделі. На мій досвід, дані рідко схиляються до однієї з двох моделей.

— Сіань

2

Я чув, що практичне використання логістичного розподілу походить від його подібності із звичайним CDF та його набагато простішою кумулятивною функцією розподілу. Насправді нормальний CDF містить інтеграл, який необхідно оцінити - що, напевно, було обчислювально дорогим у ті дні.

— dv_bn

144

Вони в основному відрізняються функцією зв'язку.

У Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

У Пробіті: (накопичувальний звичайний pdf) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

В іншому випадку логістика має трохи більш плоскі хвости. тобто крива пробіта наближається до осей швидше, ніж крива логіта.

У Logit є легша інтерпретація, ніж probit. Логістичну регресію можна інтерпретувати як моделювання шансів журналу (тобто ті, хто палить> 25 сигарет на день, мають 6 разів більше шансів померти до 65 років). Зазвичай люди починають моделювання з logit. Ви можете використовувати значення ймовірності кожної моделі, щоб вирішити для logit vs probit.

— vinux
джерело

6

Дякуємо за вашу відповідь Vinux. Але я також хочу знати, коли користуватися logit та використовувати probit. Я знаю, що logit популярніший за probit, і в більшості випадків ми використовуємо logit regression. Але є деякі випадки, коли моделі Probit є більш корисними. Скажіть, будь ласка, що це за справи. І як відрізнити ті випадки від звичайних справ.

— Бета

5

Якщо ви переймаєтесь хвостовою частиною кривої, то колись має значення вибір logit або probit. Немає точного правила вибору probit або logit. Ви можете вибрати модель, переглянувши вірогідність (або ймовірність журналу) або AIC.

— vinux

12

Дякую за пораду! Чи можете ви детальніше розібратися, як вибрати між logit vs probit? Зокрема: (1) Як я можу сказати, коли вас турбує хвостова частина кривої? (2) Як вибрати модель, переглядаючи ймовірність, ймовірність журналу чи AIC? На що конкретно слід звернути увагу, і як це має впливати на моє рішення щодо того, яку модель використовувати?

— DW

Що ж, ви можете навести приклади, коли logit не вдається порівняти з probit? Я не можу знайти тих, кого ти маєш на увазі.

— Вок

1

@flies Тут позначає транспонування матриці .

X^{'}

$X'$

X

$X$

— Математика

445

Стандартну лінійну модель (наприклад, просту регресійну модель) можна вважати такою, що має дві "частини". Вони називаються структурною складовою та випадковою складовою . Наприклад: Перші два терміни (тобто ) складають структурний компонент, а (що вказує на нормально поширений термін помилки) є випадковою складовою. Коли змінна відповіді зазвичай не розподіляється (наприклад, якщо ваша змінна відповідь є двійковою), цей підхід може бути більше недійсним. Узагальнена лінійна модель

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) був розроблений для вирішення таких випадків, а моделі logit і probit - це спеціальні випадки GLiM, які підходять для бінарних змінних (або багатокатегорійних змінних відповідей з деякими адаптаціями до процесу). GLiM має три частини: структурну складову , функцію зв'язку та розподіл відповіді . Наприклад: Тут - знову структурний компонент, - функція зв'язку, і

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ є середнім розподілом умовного відгуку в заданій точці ковариантного простору. Те, як ми думаємо про структурну складову тут, насправді не відрізняється від того, як ми думаємо про це зі стандартними лінійними моделями; насправді, це одна з найважливіших переваг GLiM. Оскільки для багатьох розподілів дисперсія є функцією середнього значення, що відповідає умовному середньому (та враховуючи, що ви вказали розподіл відповідей), ви автоматично враховували аналог випадкової складової у лінійній моделі (Примітка: це може бути на практиці складніше).

Функція зв’язку є ключовою для GLiM: оскільки розподіл змінної відповіді є ненормативним, саме це дозволяє нам підключати структурний компонент до відповіді - він 'пов'язує' їх (звідси назва). Це також є ключовим у вашому питанні, оскільки logit і probit - це посилання (як пояснило @vinux), а розуміння функцій посилань дозволить нам розумно вибрати, коли використовувати який. Хоча може бути багато функцій зв'язку, які можуть бути прийнятними, часто є одна, яка є спеціальною. Не бажаючи заглиблюватися занадто далеко в бур'яни (це може отримати дуже технічний характер), передбачуване середнє значення , не обов'язково буде математично таким же, як канонічний параметр розташування розподілу відповідей ; $\mu$ . Перевага цього "полягає в тому, що існує мінімально достатня статистика для " ( нім. Rodriguez ). Канонічною ланкою для даних бінарних відповідей (точніше, біноміального розподілу) є logit. Однак існує безліч функцій, які можуть відображати структурний компонент на інтервал і, таким чином, бути прийнятним; probit також популярний, але є й інші варіанти, які іноді використовуються (наприклад, додатковий журнал журналу, , який часто називають "засміченням"). Таким чином, існує маса можливих функцій зв'язку, і вибір функції зв'язку може бути дуже важливим. Вибір слід робити на основі комбінації: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Знання розподілу відповідей,
Теоретичні міркування та
Емпірична відповідність даним.

Розглянувши трохи концептуальної основи, необхідної для більш чіткого розуміння цих ідей (вибачте мене), я поясню, як ці міркування можна використовувати для керування вашим вибором посилання. (Дозвольте зазначити, що я вважаю, що коментар @ Девіда точно фіксує, чому на практиці вибираються різні посилання .) Для початку, якщо ваша змінна відповідь є результатом випробування Бернуллі (тобто або ), ваш розподіл відповідей буде двочлен, і те, що ви насправді моделюєте, це ймовірність того, що спостереження є рівним (тобто ). Як результат, будь-яка функція, яка відображає реальний рядок числа , на інтервал $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ буду працювати.

З точки зору вашої основної теорії, якщо ви думаєте, що ваші коваріати безпосередньо пов'язані з вірогідністю успіху, ви зазвичай обираєте логістичну регресію, оскільки це канонічне посилання. Однак розглянемо наступний приклад: Вам пропонується моделювати high_Blood_Pressureяк функцію деяких коваріатів. Сам кров'яний тиск зазвичай розподіляється серед населення (я насправді цього не знаю, але це здається розумним prima facie), тим не менше, клініцисти дихотомізували це під час дослідження (тобто вони зафіксували лише "високий рівень ВР" або "нормальний" ). У цьому випадку пробіт буде кращим a-priori з теоретичних причин. Це те, що @Elvis мається на увазі під «вашим бінарним результатом залежить від прихованої змінної Гаусса».симетричний , якщо ви вважаєте, що ймовірність успіху повільно зростає з нуля, але потім скорочується швидше, коли наближається до одного, викликається засмічення тощо.

Нарешті, зауважте, що емпіричне пристосування моделі до даних навряд чи допоможе у виборі посилання, якщо тільки форми функцій посилань, про які йдеться, суттєво не відрізняються (про що, logit і probit не відповідають). Наприклад, розглянемо таке моделювання:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Навіть коли ми знаємо, що дані були сформовані пробітною моделлю, і у нас є 1000 точок даних, пробітна модель дає лише кращу відповідність 70% часу, і навіть тоді, часто лише тривіальну кількість. Розглянемо останню ітерацію:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

Причиною цього є просто те, що функції logit і probit link дають дуже схожі результати, коли даються однакові входи.

Введіть тут опис зображення

Функції logit і probit практично однакові, за винятком того, що logit знаходиться трохи далі від меж, коли вони "повертають кут", як заявив @vinux. (Зверніть увагу, що для отримання logit і probit для оптимального вирівнювання, logit має бути рази більше відповідного значення нахилу для probit. Крім того, я міг би трохи зрушити засмічення, щоб вони лежали зверху один з одним більше, але я залишив його в стороні, щоб зберегти фігуру більш читабельною.) Зауважте, що засмічення несиметричне, тоді як інші - ні; вона починає відтягуватися від 0 раніше, але повільніше, і наближається близько до 1, а потім різко повертається. $\beta_1$ $\approx 1.7$

Ще кілька речей можна сказати про функції зв’язку. По-перше, розгляд функції ідентичності ( ) як функції зв'язку дозволяє зрозуміти стандартну лінійну модель як особливий випадок узагальненої лінійної моделі (тобто розподіл відповідей є нормальним, а посилання функція ідентичності). Важливо також визнати, що яке б перетворення екземпляр посилання правильно не застосовувався до параметра, що регулює розподіл відповіді (тобто ), а не фактичних даних відповідей. $g(\eta)=\eta$ $\mu$ . Нарешті, оскільки на практиці у нас ніколи не є базовий параметр для трансформації, при обговоренні цих моделей часто те, що вважається фактичною ланкою, залишається неявним, а модель представлена зворотною функцією зв'язку, застосованої замість структурної складової. . Тобто: Наприклад, зазвичай представлена логістична регресія: замість:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Швидкий та зрозумілий, але ґрунтовний огляд узагальненої лінійної моделі див. У главі 10 Fitzmaurice, Laird, & Ware (2004) (на якій я схилився до частини цієї відповіді, хоча оскільки це моя власна адаптація цього - та інше - матеріальне, будь-які помилки були б моїми власними). Щоб встановити ці моделі в R, перегляньте документацію щодо функції ? Glm в базовому пакеті.

(Остання фінальна записка додана пізніше :) Я час від часу чую, як люди говорять, що не слід використовувати пробіт, тому що його не можна інтерпретувати. Це неправда, хоча інтерпретація бета менш інтуїтивна. З логістичною регресією зміна однієї одиниці в асоціюється із зміною в журналі шансів на 'успіх' (як альтернатива, -кратне зміна шансів), всі інші рівні. З пробітом це буде зміна 's. (Придумайте, наприклад, два спостереження в наборі даних із -scores 1 і 2.) Щоб перетворити їх у передбачувані ймовірності , ви можете передати їх через звичайний CDF $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ , або шукайте їх на таблиці. $z$

(+1 до @vinux та @Elvis. Тут я спробував надати більш широкі рамки, в яких можна було б думати про ці речі, а потім використовувати це для вирішення вибору між logit та probit.)

— gung
джерело

79

Спасибі, хлопці. Я радий, що це добре поєдналося; це насправді хороший приклад того, як ви можете дізнатися речі з резюме, відповідаючи на запитання, а також запитуючи та читаючи відповіді інших: я знав цю інформацію заздалегідь, але не досить добре, щоб я міг просто її виписати холодно. Тому я фактично провів деякий час, переглядаючи свої старі тексти, щоб зрозуміти, як організувати матеріал і викласти його чітко, і в процесі затвердив ці ідеї для себе.

— gung

6

@gung Дякую за це пояснення, це одне з найяскравіших описів GLM в цілому, що я натрапив.

— fmark

@whuber "Коли змінна відповіді зазвичай не розподіляється (наприклад, якщо ваша змінна відповідь є двійковою), цей підхід [стандартний OLS] може більше не бути дійсним." Вибачте, що вас турбуєте (знову ж таки!) Цим, але я вважаю це трохи заплутаним. Я розумію, що в OLS немає безумовних припущень розподілу залежної змінної. Чи означає ця цитата означає, що оскільки відповідь настільки дико ненормальна (тобто двійкова змінна), що її умовний розподіл, заданий (а отже, і розподілом залишків), не може наблизитись до нормальності?

X

$X$

— ландроні

7

@landroni, ви можете поставити нове запитання для цього. Якщо коротко, якщо ваша відповідь є бінарною, умовний розподіл Y, заданий X = xi, не може наблизитись до нормальності; це завжди буде двочленним. Розподіл залишків сировини також ніколи не наближатиметься до нормальності. Вони завжди будуть pi & (1-pi). Хоча розподіл вибірки умовного середнього значення Y, заданого X = xi (тобто, pi), наблизиться до нормальності.

— gung

2

Я поділяю певну стурбованість ландроні: врешті-решт, нормально розподілений результат, як правило, не розподілений залишки, а не нормально розподілений результат може мати нормально розподілені залишки. Проблема з результатом , здається, менше про його поширенні в собі , ніж її діапазон.

— Олексій

47

Окрім відповіді vinux, яка вже розповідає про найголовніше:

коефіцієнти в логітній регресії мають природні інтерпретації у співвідношенні шансів; $\beta$
пробістична регресія - це природна модель, коли ви думаєте, що ваш бінарний результат залежить від прихованої гауссової змінної [eq. 1] з детерміновано: рівно, коли . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
Більш загально, і більш природно, пробістична регресія - це більш природна модель, якщо ви вважаєте, що результат дорівнює саме тоді, коли деякий перевищує поріг , з . Неважко помітити, що це можна звести до вищезгаданого випадку: просто змінити масштаб як ; легко перевірити це рівняння [ек. 1] зберігається (змінити масштаби коефіцієнтів і перекласти перехоплення). Ці моделі захищаються, наприклад, в медичних контекстах, де буде незастереженою постійною змінною, а наприклад, хворобою, яка з’являється, коли $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ перевищує деякий «патологічний поріг».

І моделі logit, і probit - лише моделі . "Усі моделі помиляються, деякі корисні", як казав Box колись! Обидві моделі дозволять виявити існування ефекту на результат ; за винятком деяких особливо особливих випадків, жоден з них не буде "справді правдою", і їх тлумачення слід робити обережно. $X$ $Y$

— Елвіс
джерело

17

Варто також зазначити, що на використання моделей probit та logit сильно впливає дисциплінарна традиція. Наприклад, економісти, здається, набагато більше використовуються для аналізу спроб, тоді як дослідники психометрики в основному покладаються на моделі logit.

— Девід

Яка модель за гортанням монети?

— скан

32

Щодо вашої заяви

Мені більше цікаво знати, коли використовувати логістичну регресію та коли використовувати probit

Тут вже є багато відповідей, які піднімають речі, що слід враховувати при виборі між двома, але є одне важливе враження, про яке ще не було сказано: Коли ваш інтерес полягає у перегляді асоціацій всередині кластера у двійкових даних із використанням змішаних ефектів логістичного або пробіт-моделі, існує теоретичне обгрунтування переваги пробіт-моделі. Це, звичайно, припускаючи, що немає апріорної причини для переваги логістичної моделі (наприклад, якщо ви робите моделювання і знаєте, що це справжня модель).

По-перше , щоб зрозуміти, чому це правда, спочатку зауважте, що обидві ці моделі можна розглядати як порогові моделі безперервної регресії. Як приклад розглянемо просту лінійну модель змішаних ефектів для спостереження в кластері : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

де - кластерний випадковий ефект, а - термін помилки. Тоді як логістична, так і пробітна регресія моделі еквівалентно формулюються як такі, що генеруються з цієї моделі, і визначають поріг у 0: $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

Якщо термін нормально розподілений, у вас є регрес пробіту, і якщо він розподілений логістично, у вас є модель логістичної регресії. Оскільки шкала не ідентифікована, ці залишкові помилки задаються як стандартні нормальні, так і стандартні логістичні відповідно. $\varepsilon_{ij}$

Пірсон (1900) показав, що якщо створюються багатоваріантні нормальні дані та визначаються порогові категорії, то кореляції між основними змінними все ще є статистично ідентифікованими - ці кореляції називають поліхорними кореляціями і, характерними для двійкового випадку, їх називають тетрахорними кореляціями . Це означає, що в пробітній моделі коефіцієнт внутрішньокласової кореляції базових нормально розподілених змінних:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

Визначено, що означає, що у випадку пробіта ви можете повністю охарактеризувати спільний розподіл основних прихованих змінних .

У логістичній моделі випадкова дисперсія в логістичній моделі досі ідентифікується, але вона не повністю характеризує структуру залежності (і, отже, спільний розподіл), оскільки це суміш між нормальною та логістичною випадковою змінною , яка не має властивість, що вона повністю задана середньою матрицею коваріації. Зазначаючи це дивне параметричне припущення для основних прихованих змінних, інтерпретація випадкових ефектів у логістичній моделі є менш зрозумілою для інтерпретації в цілому.

— Макрос
джерело

6

Є й інші ситуації, в яких також можна віддати перевагу. Моделі економетричного відбору (тобто Гекмана) підтверджені лише за допомогою пробітної моделі. Я менш впевнений у цьому, але я також вважаю, що деякі моделі SEM, де бінарні змінні є ендогенними, також використовують пробіт-модель через припущення про багатоваріантну нормальність, необхідну для максимальної оцінки ймовірності.

— Andy W

1

@AndyW, ви маєте рацію щодо двійкових SEM - і це тісно пов'язане з моментом, який я тут зробив - оцінка (та подальше тлумачення) там підтверджується тим, що базові кореляції визначені і повністю характеризують спільний розподіл .

— Макрос

29

Важливим моментом, який не було розглянуто в попередніх (відмінних) відповідях, є власне етап оцінки. Багатомоніальні моделі logit мають PDF, який легко інтегрувати, що призводить до вираження вірогідності вибору у закритій формі. Функція щільності нормального розподілу не так легко інтегрується, тому пробітні моделі зазвичай потребують моделювання. Тож як обидві моделі - це абстракції реальних ситуацій, logit зазвичай швидше використовувати у великих проблемах (декілька альтернатив або великих наборів даних).

Щоб зрозуміти це більш чітко, ймовірність вибору конкретного результату є функцією змінних та умов помилки (слід поїзда ) $x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$ Де - функція індикатора, 1 якщо вибрано, а інше - нуль. Оцінка цього інтеграла сильно залежить від припущення . У моделі logit це і логістична функція, і нормальний розподіл у probit-моделі. Для моделі logit це стає

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Такої зручної форми для моделей пробітів не існує.

— gregmacfarlane
джерело

4

Ось чому мультиноміальні функції логіту класично використовуються для оцінки просторових задач дискретного вибору, навіть незважаючи на те, що власне явище краще моделюється пробітом.

— fmark

Як би ви включили просторові елементи в модель постійного струму? Мені дуже цікаво.

— gregmacfarlane

2

Але, у ситуації вибору, probit є більш гнучким, тому мур використовується сьогодні! багаточленна логіта передбачає припущення про нерелевантність невідповідних альтернатив, що не завжди є емпірично виправданим.

— kjetil b halvorsen

1

Ви маєте рацію, що IIA не завжди виправданий, і ви також маєте рацію, що за допомогою сучасних оцінок моделі probit можна оцінити досить швидко. Але моделі GEV вирішують проблему IIA і, можливо, краще представляють структуру вибору в певних ситуаціях. Я також не впевнений, що пробіт "більше використовується сьогодні"; в моїй галузі (транспортне моделювання) пробіт-моделі залишаються новинкою.

— gregmacfarlane

13

Те, що я збираюся сказати, жодним чином не скасовує сказане до цього часу. Я просто хочу зазначити, що пробіт-моделі не страждають від припущень IIA (Незалежності від невідповідних альтернатив), і модель logit.

Використовувати приклад із чудової книги Поїзда. Якщо у мене є логіт, який передбачає, чи збираюся я їздити на синьому автобусі чи їздити в своїй машині, додавання червоного автобуса пропонуватиметься як від автомобіля, так і від синього автобуса пропорційно. Але використовуючи пробіт-модель, ви можете уникнути цієї проблеми. По суті, замість того, щоб малювати з обох пропорційно, ви можете намалювати більше із синьої шини, оскільки вони є ближчими замінниками.

Жертвою, яку ви робите, є те, що немає рішень закритої форми, як зазначено вище. Пробіт, як правило, є моїм гото, коли я переживаю з питань IIA. Це не означає, що не існує способів обійти IIA в рамках logit (розподіли GEV). Але я завжди розглядав подібні моделі як незграбний спосіб вирішення проблеми. Із обчислювальною швидкістю, яку ви можете отримати, я б сказав, що йде з пробітом.

— user61417
джерело

1

Чи можете ви пояснити, будь ласка, "Незалежність невідповідних альтернатив"?

— скан

3

Зауважте, що все ще можливо оцінити багаточленну модель пробітів, яка застосовує варіант припущення IIA (наприклад, у команді mprobit у Stata). Щоб уникнути IIA в мультиномному пробіті, ви повинні моделювати дисперсійно-коваріаційну матрицю прихованих помилок змінної для кожної альтернативи у змінній відповіді.

— Кенджі

8

Однією з найбільш відомих різниць між logit і probit є розподіл (теоретичної) регресії залишків: нормальний для probit, logist для logit (див.: Кооп Г. Вступ до Econometrics Chichester, Wiley: 2008: 280).

— Карло Лаццаро
джерело

2

але як ми можемо знати, чи повинні наші дані мати теоретичний нормальний або логістичний залишковий розподіл? Наприклад, коли я перекидаю монету.

— скан

8

Я пропоную практичну відповідь на питання, яке зосереджено лише на тому, «коли використовувати логістичну регресію та коли використовувати пробіт», не вдаючись до статистичних деталей, а скоріше зосереджуючись на рішеннях, заснованих на статистиці. Відповідь залежить від двох головних речей: чи маєте ви дисциплінарне уподобання, і чи хвилюєтесь ви лише, яка модель краще відповідає вашим даним?

Базова різниця

І моделі logit, і probit надають статистичні моделі, які дають ймовірність, що залежна змінна відповідь буде 0 або 1. Вони дуже схожі і часто дають практично ідентичні результати, але оскільки вони використовують різні функції для обчислення ймовірностей, їх результати іноді незначні інший.

Дисциплінарна перевага

Деякі навчальні дисципліни, як правило, віддають перевагу тому чи іншому. Якщо ви збираєтесь опублікувати або представити свої результати в навчальній дисципліні з певними традиційними уподобаннями, тоді нехай це диктує ваш вибір, щоб ваші висновки були більш прийнятними. Наприклад (від методів консультантів ),

Логіт - також відомий як логістична регресія - більш популярний у науках про здоров'я, як епідеміологія, частково тому, що коефіцієнти можна інтерпретувати через коефіцієнт шансів. Моделі пробітів можуть бути узагальнені для врахування непостійних відхилень помилок у більш досконалих економетричних умовах (відомих як гетерокедастичні моделі пробітів), а отже, використовуються в деяких контекстах економістами та політологами.

Справа в тому, що відмінності в результатах настільки незначні, що здатність вашої загальної аудиторії зрозуміти ваші результати переважає незначні відмінності між двома підходами.

Якщо все, що вам цікаво, краще підходить ...

Якщо ваше дослідження займається дисципліною, яка не надає переваги тому чи іншому, то моє вивчення цього питання (що краще, логіт чи пробіт) привело мене до висновку, що загалом краще використовувати пробіт , оскільки це майже завжди буде надати статистичну відповідність даним, рівним або перевернутим даних у моделі logit. Найбільш помітний виняток, коли моделі logit краще підходять - це у випадку "крайніх незалежних змінних" (які я поясню нижче).

Мій висновок майже повністю ґрунтується (після пошуку численних інших джерел) на Хан, Е.Д. та Соєр, Р., 2005. Моделі пробіта та логіта: Відмінності в багатовимірній царині. Доступно за адресою: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.329.4866&rep=rep1&type=pdf . Ось мій підсумок висновків із практичного рішення з цієї статті, що стосуються того, чи можуть багатовимірні моделі logit та probit краще відповідати даним (ці висновки стосуються також одновимірних моделей, але вони лише імітували ефекти для двох незалежних змінних):

У більшості сценаріїв моделі logit і probit однаково добре відповідають даним, за винятком двох наступних винятків.
Логіт, безумовно, кращий у випадку "крайніх незалежних змінних" . Це незалежні змінні, де одне особливо велике або мале значення переважно часто визначатиме, чи залежна змінна дорівнює 0 або 1, переосмислюючи ефекти більшості інших змінних. Хан і Соєр формально визначають це таким чином (стор. 4):

Крайній незалежний рівень змінної передбачає вплив трьох подій. По-перше, крайній незалежний рівень змінної виникає у верхній або нижній крайності незалежної змінної. Наприклад, скажімо, що незалежна змінна x повинна була приймати значення 1, 2 та 3.2. Крайній незалежний рівень змінної передбачає значення при x = 3,2 (або x = 1). По-друге, значна частка (наприклад, 60%) від загальної кількості n повинна бути на цьому рівні. По-третє, ймовірність успіху на цьому рівні сама по собі повинна бути крайньою (наприклад, більшою, ніж 99%).

Пробіт кращий у випадку "моделей випадкових ефектів" з помірними або великими розмірами вибірки (дорівнює логіту для малих розмірів вибірки). Для моделей з фіксованими ефектами пробіт і логіт однаково хороші. Я не дуже розумію, що означають Ган та Соєр під "моделями випадкових ефектів" у своїй статті. Хоча пропонується багато визначень ( як у цьому питанні Stack Exchange ), визначення терміна насправді є неоднозначним та непослідовним . Але оскільки логіт ніколи не перевершує пробіт в цьому плані, то справа надається суперечкою, просто вибираючи пробіт.

Виходячи з аналізу Хана і Соєра, мій висновок полягає у тому, щоб завжди використовувати пробітні моделі, за винятком крайніх незалежних змінних, у цьому випадку слід вибирати logit . Крайні незалежні змінні не все є поширеними, і їх слід досить легко розпізнати. З цим правилом не має значення, модель є випадковою дією ефектів чи ні. У тих випадках, коли модель є моделлю випадкових ефектів (де кращий пробіт), але є крайні незалежні змінні (де Logit є кращим), хоча Ган і Соєр цього не коментували, моє враження з їх статті полягає в тому, що ефект від крайні незалежні змінні є більш домінуючими, тому logit буде кращим.

— Tripartio
джерело

5

Нижче я пояснюю оцінювач, який вводить probit і logit як особливі випадки і де можна перевірити, що є більш підходящим.

І пробіт, і логіт можуть бути вкладені в приховану змінну модель,

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

де спостерігається компонент

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

Якщо ви вибираєте як звичайний cdf, ви отримуєте probit, якщо ви вибираєте cdf-логістичний, ви отримуєте logit. У будь-якому випадку функція ймовірності приймає форму $G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

Однак, якщо вас турбує, яке припущення ви зробили, ви можете скористатися оцінником Klein & Spady (1993; Econometrica). Цей оцінювач дозволяє бути повністю гнучким у вашій специфікації cdf, , а потім ви навіть зможете згодом перевірити чинність нормальності чи логістичності (?). $G$

У Klein & Spady замість цього функція критерію

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

де - непараметрична оцінка cdf, наприклад, оцінена за допомогою регресії регресії ядра Nadaraya-Watson, $\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

де називається "ядром" (типово вибирається гауссовий cdf або трикутне ядро), а - "пропускна здатність". Вибрати значення для плагіна для останнього, але це може бути набагато складніше, і це може зробити зовнішню оптимізацію над більш складною, якщо змінюється на кожному кроці ( врівноважує так звану компромісію відхилення ). $K$ $h$ $\beta$ $h$ $h$

Покращення: Ichimura припустив , що ядро регресії, , слід залишити з - го спостереження; в іншому випадку вибір може бути ускладнений проблемою із надмірним вмістом у зразку (занадто велика дисперсія). $\hat{G}$ $i$ $h$

Обговорення: Одним з недоліків оцінювача Кляйн-Лопата є те, що він може застрягнути в локальних мінімумах. Це тому, що cdf адаптується до заданих . Я знаю кількох студентів, які намагалися його реалізувати і мали проблеми з конвергенцією та уникненням чисельних питань. Отже, з цим нелегким оцінювачем працювати. Крім того, висновок про передбачувані параметрах ускладнюються пів-параметричної специфікацією . $G$ $\beta$ $G$

— Суперпронкер
джерело

5

Вони дуже схожі.

В обох моделях ймовірність того, що задано можна розглядати як ймовірність того, що випадкова прихована змінна (з певним фіксованим розподілом) знаходиться нижче певного порогу, який лінійно залежить від : $Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Або рівнозначно:

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

Тоді все залежить від того, що ви обираєте для розподілу : $S$

в логістичній регресії має логістичний розподіл. $S$
при пробітній регресії має нормальний розподіл. $S$

Варіантність є неважливою, оскільки вона автоматично компенсується множенням на постійну. Середнє значення також є неважливим, якщо ви використовуєте перехоплення. $\beta$

Це можна сприймати як пороговий ефект. Якийсь невидимий результат - це лінійна функція з додаванням шуму як у лінійній регресії, і ми отримуємо результат 0/1, кажучи: $E=\beta X-S$ $X$ $-S$

коли , результат $E>0$ $Y=1$
коли , результат $E<0$ $Y=0$

Відмінність між логістичним і пробітним полягає в різниці між логістичним і нормальним розподілом. Там не так вже й багато. Після налаштування вони виглядають так:

Логістика має важчий хвіст. Це може трохи вплинути на те, як підходять події малої (<1%) або високої (> 99%) ймовірності. Практично різниця навіть не помітна в більшості ситуацій: logit і probit передбачають по суті одне і те ж. Дивіться http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Філософсько" логістична регресія може бути виправдана еквівалентом принципу максимальної ентропії: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-моделі /

З точки зору обчислення: логістика простіша, оскільки кумулятивний розподіл логістичного розподілу має закриту формулу на відміну від звичайного розподілу. Але нормальні дистрибуції мають хороші властивості, коли ви переходите до багатовимірних, саме тому пробіт часто віддають перевагу в запущених випадках.

— Бенуа Санчес
джерело