Чому бета / Діріхле регресія не вважається узагальненими лінійними моделями?


26

Передумовою є ця цитата з віньєтки пакету R betareg1 .

Крім того, модель поділяє деякі властивості (такі як лінійний предиктор, функція зв'язку, параметр дисперсії) з узагальненими лінійними моделями (GLM; McCullagh та Nelder 1989), але це не є особливим випадком цієї рамки (навіть не для фіксованої дисперсії )

Ця відповідь також натякає на той факт:

[...] Це тип регресійної моделі, який підходить, коли змінна відповіді розподіляється як бета-версія. Ви можете вважати це аналогом узагальненої лінійної моделі. Це саме те, що ви шукаєте [...] (наголос мій)

Заголовок запитання говорить все: чому бета / Діріхле регресія не вважається узагальненими лінійними моделями (чи ні)?


Наскільки мені відомо, узагальнена лінійна модель визначає моделі, побудовані на очікуванні їх залежних змінних, що залежать від незалежних.

f - функція зв'язку, яка відображає очікування, - розподіл ймовірностей, - результат і - провісники, - лінійні параметри, а - дисперсія.Y X β σ 2gYXβσ2

f(E(YX))g(βX,Iσ2)

Різні ГЛМ нав'язують (або розслаблюють) взаємозв'язок між середньою та дисперсією, але повинен бути розподілом вірогідності в експоненціальній сім'ї, бажаною властивістю, яке повинно покращити надійність оцінки, якщо я правильно згадую. Розподіл Бета та Діріхле є частиною експоненціальної родини, тому я не маю ідеї.g


[1] Cribari-Neto, F., & Zeileis, A. (2009). Бета-регресія в Р.



@amoeba Дякую за посилання, раніше не бачив цього питання.
Firebug

2
Я думаю, що проблема полягає в тому, що якщо ви пишете бета-розподіл зі стандартними параметрами , (тобто передбачає рівномірне (0,1)), то бета-розподіл знаходиться в сімействі експонентів, якщо ви пишете його з точки зору (середнє значення) та (дисперсія), це не так. Але я ніколи так не піклувався про те, чи є розподіл у експоненціальній родині. b a = b = 1 μ ϕаба=б=1мкϕ
Кліф АВ

@CliffAB Після прочитання коментарів під відповіддю Тіма нижче здається, що параметризація Beta призводить до неортогональності параметрів, що, як видається, є вимогою до ГММ McCullagh-Nelder.
Firebug

1
Я вважаю, що ця коротка відповідь: stats.stackexchange.com/a/18812/28666 є доречною та додає до відповідей тут (натякаючи на те, чому GLM були спочатку визначені з експоненціальною сімейкою дисперсій).
Амеба каже, що поверніть Моніку

Відповіді:


20

Перевірте оригінал посилання:

Ferrari, S., & Cribari-Neto, F. (2004). Бета-регресія для моделювання темпів та пропорцій. Журнал прикладної статистики, 31 (7), 799-815.

як зазначають автори, параметри повторного параметризованого бета-розподілу співвіднесені, так

Зауважимо, що параметри і не є ортогональними, на відміну від того, що перевірено в класі узагальнених лінійних регресійних моделей (McCullagh and Nelder, 1989).ϕβϕ

Тож як модель виглядає як GLM і хитається як GLM, вона не ідеально підходить до рамки.


7
+1, але було б чудово отримати більш детальну відповідь. Я особисто не розумію цитату (навіть після відкриття зв'язаного паперу). Чому в бета-регресії ці параметри не є ортогональними? .. Чому це потрібно для ГЛМ? .. І т. Д.,
говорить амеба Reinstate Monica

3
@amoeba чесно, я не та людина, яка може дати тобі детальну відповідь на це. Мене ніколи не так сильно цікавила теорія, що стоїть за GLM, щоб мати достатньо глибоке розуміння таких тонкощів. Маккаллах і Нелдер згадують цю вимогу, але мені потрібно перевірити їхню книгу, щоб зрозуміти, чому саме вона важлива. Якщо хтось дасть детальне пояснення, чому це питання, я б подумав про те, щоб витратити щедрість за таку відповідь.
Тім

9
Вимога ортогональності в ГЛМ є важливою: Це означає, що ви можете оцінити рівняння не переживаючи про неправильне визначення решти ймовірностей. Оцінки параметрів є послідовними, якщо середнє рівняння вище вказано правильно. Висновок дійсний, якщо додатково дисперсія правильно вказана. Однак у бета-регресії ви не можете розділити два модельних рівняння таким чином, навіть якщо ϕ просто константа. Для послідовних результатів все має бути вказано правильно. г(мк)=хβϕ
Ахім Цейлей

3
@AchimZeileis Я згадав, що побачив ваше ім'я в резюме. Те, що ви говорите, має ідеальний сенс. Можливо, ви хочете перетворити коментар на відповідь, додавши ще одне обґрунтування? Як я вже говорив, я був би радий нагородити те, що хтось дасть достатньо детальну відповідь на питання.
Тім

2
@Tim Постараюсь зробити це, коли у мене буде більше часу. Тому я подумав, що швидкий коментар краще, ніж нічого ...
Ахім Зейлейз

8

Відповідь @probabilityislogic на вірному шляху.

Бета-розподіл знаходиться в сімействі експонентних двох параметрів . Прості моделі GLM, описані Нелдером та Веддерберном (1972) , не включають усіх розподілів у сімействі експонентів двох параметрів.

Щодо статті N&W, GLM застосовується до функцій щільності такого типу (пізніше це було названо експоненційною сімейкою дисперсій у Jørgensen 1987 ):

π(z;θ,ϕ)=досвід[α(ϕ){zθ-г(θ)+год(z)}+β(ϕ,z)]

з додатковою функцією зв'язку та лінійною моделлю для природного параметра θ = f ( μ ) = f ( X β ) .f()θ=f(мк)=f(Хβ)


Таким чином, ми могли б також переписати вищевказаний розподіл:

π(z;мк,ϕ)=ехp[z(f(мк)α(ϕ))+год(z)α(ϕ)-г(f(мк))α(ϕ)+β(ϕ,z)]

Експоненціальна сім'я двох параметрів:

f(z;θ1,θ2)=ехp[Т1(z)η1(θ1,θ2)+Т2(z)η2(θ1,θ2)-г(θ1,θ2)+год(z)]

який схожий, але більш загальний (також якщо одна з є постійною).θ


Різниця очевидна, і також неможливо встановити бета-розподіл у формі як GLM.

Однак мені бракує достатнього розуміння, щоб створити більш інтуїтивну та добре обізнану відповідь (у мене є відчуття, що до різних фундаментальних принципів можуть бути набагато глибші та елегантніші стосунки). GLM узагальнює розподіл похибки за допомогою єдиної змінної моделі експоненціальної дисперсії замість моделі найменших квадратів та узагальнює лінійний взаємозв'язок в середньому, використовуючи функцію зв'язку.

Найкращою і найпростішою інтуїцією здається дисперсія -терміна в експоненціалі, яка множиться на все, і, отже, дисперсія не змінюється на θ . В той час, як кілька двох експоненціальних сімейств параметрів і квазіімовірнісні методи дозволяють параметру дисперсії також бути функцією θ .α(ϕ)θθ


ϕπ(z;θ)

@amoeba beta - це двофакторний експоненціальний розподіл сім'ї, наприклад www2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Tim

2
Я не впевнений, чи це не цілком можливо, навіть із фіксованою дисперсією. Принаймні, не за даними glm, як заявлено N&W (що я знаю, це те, що багато людей роблять набагато складніше, щоб вирішити бета-регресію). Я відредагую відповідь, щоб показати, що трапляється, і де вона піде не так, якщо ми намагатимемось слідувати тим самим ітераційним шляхом, переоціненим найменшими квадратами.
Секст Емпірік

2
Відповідь я дещо відредагував. 1) Мій початковий опис сімей та моделей дисперсії був неправильним. GLM включає всі розподіли експоненціальних сімейств одного параметра, тому що це не тільки функція щільності, а й функція зв'язку. 2) З точки зору кращого інтуїтивного погляду я не міг зайти далеко і не сподіваюся, що скоро заїду. Моделі GLM відносяться до класичної моделі в різних уявленнях, додаючи ваги до матричної постановки процедур підгонки, похідних функцій вірогідності журналу, включаючи терміни з функцією зв'язку та дисперсією, .....
Секст Емпірік

2
Я взяв на себе сміття трохи відредагувати вашу відповідь, сподіваюся, що ви добре з правками. Крім того, схоже, що ця відповідь stats.stackexchange.com/a/18812/28666 натякає на те, чому N&W використовує саме цю родину дистрибуції, а не більш широку.
Амеба каже: Відновити Моніку

2

Я не думаю, що бета-розподіл є частиною експоненціальної дисперсійної родини . Для цього потрібно мати щільність

f(у;θ,τ)=досвід(уθ-c(θ)τ+г(у,τ))

c()г()c'(θ)τc(θ)θ

ужурнал[у]журнал[1-у]

fбета(у;мк,ϕ)=досвід(ϕмкжурнал[у1-у]+ϕжурнал[1-у]-журнал[Б(ϕмк,ϕ(1-мк)]-журнал[у1-у])

у=хх+zхz


1
Ця відповідь не правильна, як написана. Один із способів побачити це - те, що, згідно з наведеною логікою, розподіли Бернуллі та біноми, наприклад, також не входили б до класу експоненціальних сімей.
кардинал

2
Вибачте, ви праві, що приклад, який я наводив, був помилковим. (Попередження: розумова арифметика та мобільне використання CrossValided може бути небезпечним!) Однак моя думка все ще стоїть. Ця відповідь є невірною, оскільки вона вибирає дуже вузько "визначене" поняття "експоненціальна сім'я" --- набагато вужча, ніж будь-яке звичайне джерело чи практичне використання.
кардинал

2
Хм. Вікіпедія містить список бета-версій у списку експоненціальних розподілів родин.
Амеба каже, що відбудуться Моніка

1
Щоправда - я думав про природну експоненціальну сім'ю - що є особливим випадком
ймовірність вірогідна

1
θ
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.