Чи завжди в GLM вірогідність журналу насиченої моделі дорівнює нулю?


14

У рамках виведення узагальненої лінійної моделі для оцінки моделі використовують нульове та залишкове відхилення. Я часто бачу формули цих величин, виражені у вірогідності журналу насиченої моделі, наприклад: /stats//a/113022/22199 , Логістична регресія: Як отримати насичену модель

Насичена модель, наскільки я її розумію, - це модель, яка ідеально підходить до спостережуваної реакції. Таким чином, у більшості я, що я бачив, імовірність насиченої моделі завжди задається як нуль.

Однак спосіб подання формули відхилення говорить про те, що іноді ця кількість не дорівнює нулю. (Наче вона завжди дорівнює нулю, навіщо турбуватися включати її?)

У яких випадках він може бути не нульовим? Якщо він ніколи не є нульовим, навіщо його включати у формулу для відхилення?

Відповіді:


18

Якщо ви дійсно мали на увазі ймовірність журналу , то відповідь така: це не завжди дорівнює нулю.

Наприклад, розглянемо дані Пуассона: . Імовірність журналу для задається: Y = ( y 1 , , y n ) ( μ ; Y ) = - n i = 1 μ i + n i = 1 y i log μ i - n i = 1 логyiPoisson(μi),i=1,,nY=(y1,,yn)

()(μ;Y)=i=1nμi+i=1nyilogμii=1nlog(yi!).

Диференціюйте у відносно та встановіть його на (саме так ми отримаємо MLE для насиченої моделі): Вирішіть це для щоб отримати , заміщення назад у для дає, що вірогідність журналу насиченої моделі становить: якщо приймати дуже особливі значення.( ) μ i 0 - 1 + y i(μ;Y)()μi0μя μ я=уя μ я(*)μя( μ ;Y)=п Σ я=1гя(увійтиуя-1)-п Σ я=1журнал(yi!)0yi

1+yiμi=0.
μiμ^i=yiμ^i()μi
(μ^;Y)=i=1nyi(logyi1)i=1nlog(yi!)0
yi

На сторінці довідки Rфункції glmпід пунктом devianceдокумент пояснює це питання наступним чином:

deviance до постійної, мінус удвічі більше, ніж максимальна ймовірність журналу. Де розумна, константа вибирається таким чином, щоб насичена модель мала нульове відхилення.

Зауважте, що було зазначено, що відхилення замість логічності ймовірності насиченої моделі обрано рівним нулю.

Напевно, те, що ви насправді хотіли підтвердити, - це те, що " відхилення насиченої моделі завжди задається як нуль", що правда, оскільки відхилення, за визначенням (див. Розділ 4.5.1 категоричного аналізу даних (2-е видання) Алана Agresti) - це коефіцієнт ймовірності коефіцієнта ймовірності вказаного GLM до насиченої моделі. constantВище в документації R фактично двічі розгорнутий лог-правдоподібність насиченою моделі.

Що стосується вашої заяви "Тим не менш, спосіб надання формули відхилення говорить про те, що іноді ця кількість не дорівнює нулю", це, ймовірно, пов'язане з зловживанням використанням терміна " відхилення" . Так , наприклад, в R, відношення правдоподібності статистика порівняння два довільних (вкладені) моделей і також згадуються як девіації, який буде більш точно називається , як на різниці між девіацій з і девіації з , якщо уважно стежили за визначенням, викладеним у книзі Агресті.M 2 M 1 M 2M1M2M1M2

Висновок

  1. Вірогідність журналу насиченої моделі взагалі не нульова.

  2. Відхилення (за початковим визначенням) насиченої моделі дорівнює нулю.

  3. Вихід відхилення від програмного забезпечення (наприклад, R) взагалі не нульовий, оскільки він насправді означає щось інше (різниця між відхиленнями).


Нижче наведено виведення для загального випадку сімейної експоненції та ще один конкретний приклад. Припустимо, дані надходять із експоненціальної родини (див. Сучасну прикладну статистику з S , глава ): де відомі попередніми вагами, а - дисперсійним / масштабним параметром (для багатьох випадків, таких як біноміальний та Пуассон, цей параметр відомий, тоді як для інших випадків, таких як нормальний та гамма, цей параметр невідомий). Тоді ймовірність журналу задається через: 7

(1)f(yi;θi,φ)=exp[Ai(yiθiγ(θi))/φ+τ(yi,φ/Ai)].
Aiφ
(θ,φ;Y)=i=1nAi(yiθiγ(θi))/φ+i=1nτ(yi,φ/Ai).
Як і в прикладі Пуассона, параметри насиченої моделі можна оцінити, вирішивши таку функцію оцінки :
0=U(θi)=(θ,φ;Y)θi=Ai(yiγ(θi))φ

Позначимо рішення наведеного рівняння через , тоді загальною формою вірогідності журналу насиченої моделі (трактувати параметр шкали як постійну) є: θ^i

()(θ^,φ;Y)=i=1nAi(yiθ^iγ(θ^i))/φ+i=1nτ(yi,φ/Ai).

У своїй попередній відповіді я неправильно зазначив, що перший додаток у правій частині завжди дорівнює нулю, наведений вище приклад даних Пуассона доводить, що це неправильно. Для більш складного прикладу розглянемо розподіл Gamma наведений у додатку.()Γ(α,β)


Доказом першого терміна ймовірності насиченої гамма-моделі є ненульовий : Дано спершу треба зробити репараметризацію, щоб мала форму експозиції сім'ї . Це можна перевірити, якщо дозволити тоді має представлення: де

f(y;α,β)=βαΓ(α)eβyyα1,y>0,α>0,β>0,
f(1)
φ=1α,θ=βα,
f
f(y;θ,φ)=exp[θy(log(θ))φ+τ(y,φ)],
τ(y,φ)=logφφ+(1φ1)logylogΓ(φ1).
Тому MLE насиченої моделі є . Отже, якщо приймає дуже спеціальних значень.θ^i=1yi
i=1n1φ[θ^iyi(log(θ^i))]=i=1n1φ[1log(yi)]0,
yi

1
Чи є нульова ймовірність логічності тоді і лише тоді, коли модель може призначити 100% -ну ймовірність кожному з можливих результатів?
Олексій

Я не зовсім розумію, що ви мали на увазі. Але з мого виведення ви можете зробити висновок, що це якщо і лише тоді, коли однаково і немає параметра дисперсії. 0τ0
Жансіонг

Ваше виведення дуже добре, але офіційний доказ на даний момент трохи вище моєї голови. Дякую за Ваш приклад з моделлю Пуассона. Я взяв із цього прикладу те, що модель Пуассона не може присвоїти 100% -й ймовірності спостережуваному результату за будь-якого значення середнього значення Пуассона, тому ймовірність не може бути нульовою.
Олексій

Заява "модель призначає вірогідності спостережуваному результату" для мене звучить дивно. Ви маєте на увазі, що враховуючи спостереження , і якщо - випадкова величина Пуассона, ? 100%y1,,ynYP(Y=y1)+P(Y=y2)++P(Y=yn)<1
Жансіонг

1
Я мав на увазі те, що якщо була випадковою змінною Пуассона, то для будь-якого середнього значення Пуассона, тому неможливо знайти жоден параметр моделі, який би дав журналу вірогідність нуля для спостережуваного . Можливо, я зовсім не розумію поняття насиченої моделі. YP(Y=yi)<1i
Олексій

4

Відповідь Жансіонга вже чудова (+1), але ось швидка демонстрація того, що ймовірність журналу насиченої моделі дорівнює для логістичної регресії. Я подумав, що буду публікувати, тому що я не бачив цього TeX'd на цьому сайті і тому, що я просто написав їх на лекції.0

Ймовірність де .

(1)L(y;X,β)=i=1nf(yi;xi,β)=i=1nπiyi(1πi)1yi=i=1n(πi1πi)yi(1πi)
πi=invlogit(xiβ)

Імовірність журналу -

logL(y;X,β)=i=1nyilog(πi1πi)+log(1πi)=i=1nyilogit(πi)+log(1πi)=i=1nyixiβ+log(1invlogit(xiβ))=i=1nyixiβ+log(invlogit(xiβ))=i=1nyixiβlog(1+exp[xiβ]))

Якщо взяти похідні стосовно всіх коефіцієнтів, ви отримаєте

(2)(β)=i=1nyixiexp[xiβ](1+exp[xiβ])xi.

Якщо встановити цей вираз, рівний і вирішити для ви дасте свою відповідь. Зазвичай це неможливо зробити аналітично, що пояснює популярність / необхідність використання ітеративних алгоритмів, щоб відповідати цій моделі, але у випадку насиченої моделі це можливо.0β

Щоб знайти насичену модель, ми даємо кожному рядку свій власний коефіцієнт. Тож а матриця проектування, кратна за коефіцієнтом вектора, є βRn

Xβ=[100010001][β1β2βn].

Зауважте, зокрема, .xiβ=βi

Отже, приймаючи й рядок рівняння (2), ми j

i=1nyixi,j=i=1nexp[xiβ](1+exp[xiβ])xi,j

що може бути правдивим лише в тому випадку, якщо для кожного спостереження :i

yi=invlogit(βi)
або іншими словами, кожен є плюсом або мінусом нескінченності (якщо відповідно або ). Ми можемо підключити ці параметри до (1), щоб отримати максимальну ймовірність: Очевидно, що журнал цього значення дорівнює .βiyi10
i=1nπ^iyi(1π^i)1yi=1n=1.
0


Але це передбачає негруповані дані . Якщо у вас є групи з (і однаковими величинами коваріату) (в R, приклад з використанням форми ), то насичена модель не має нуля ймовірності логічності. ni>1glm( cbind(k, n-k) ~ x + ...
kjetil b halvorsen

@kjetilbhalvorsen о хороший момент. Я ніколи не пробував цього, дозвольте перевірити
Тейлор,

1

@ Алекс: так, це правильно. принаймні для дискретних розподілів. для постійних розподілів було б зводитись до того, щоб щільність дорівнювала 1, що не обов'язково має сенс і, отже, не розумно намагатися цього досягти. трохи більш загально, імовірність схожості моделі з насиченою моделлю дає вам верхню межу для продуктивності будь-якої моделі, яка відповідає вашим припущенням про базове сімейство розподілу. Іншими словами, ймовірність виникнення насиченої біноміальної моделі є "такою ж хорошою, якою вона отримує" для даного набору даних (X, Y), припускаючи, що Y є двочленним. Є сенс порівнювати вашу модель glm з цією верхньою межею, на відміну від, скажімо, 100% (або подібної), оскільки ваша модель суттєво обмежена вашими припущеннями щодо розподілу відповідей.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.