Чому саме бета-регресія не може мати справу з 0 і 1 у змінній відповіді?


17

Бета-регресія (тобто GLM з бета-розподілом і, як правило, функцією посилання logit) часто рекомендується мати справу з змінною, яка залежить від відповіді, приймаючи значення між 0 і 1, такі як дроби, коефіцієнти або ймовірності: Регресія для результату (відношення або частка) між 0 і 1 .

Однак завжди стверджується, що бета-регресію не можна використовувати, як тільки змінна відповіді дорівнює 0 або 1 хоча б один раз. Якщо це так, потрібно використовувати або бета-модель з надутою бетоном, або здійснити певну трансформацію відповіді тощо. Бета-регресія даних про пропорції, включаючи 1 і 0 .

Моє запитання: яке властивість розподілу бета-версії запобігає бета-регресії мати справу з точними 0 і 1 та чому?

Я здогадуюсь, що і не підтримують бета-розподіл. Але для всіх параметрів форми і , як нуль і один перебувають в підтримці бета - розподілу, це тільки для невеликих параметрів форми , що розподіл звертається в нескінченність в одній або обох сторін. І, можливо, вибіркові дані такі, що та забезпечують найкращу відповідність, виявилися б вище 1 .0α > 1 β > 11α>1β>1αβ1

Чи означає це , що в деяких випадках один може фактично використовувати бета регресу навіть з нулями / з них?

Звичайно, навіть якщо 0 і 1 підтримують бета-розподіл, ймовірність спостерігати рівно 0 або 1 дорівнює нулю. Але така ймовірність спостерігати будь-який інший заданий набір значень, тому це не може бути проблемою, чи не так? (См. Цей коментар від @Glen_b).

бета-розподіл

У контексті бета-регресії розподіл бета параметризується по-різному, але при він все одно повинен бути чітко визначений на [ 0 , 1 ] для всіх μ .ϕ=α+β>2[0,1]μ

введіть тут опис зображення


2
Цікаве запитання! У мене немає жодної відповіді, окрім пунктів, які вже висловив Кевін Райт. Я думаю, що точні нулі та ймовірності є патологічними випадками (як, наприклад, при логістичній регресії), тому вони не такі цікаві, оскільки вони не повинні відбуватися.
Тім

1
@ Тім Ну, я , якщо вони повинні або не повинні відбуватися не знаю, але вони дійсно трапляються досить часто, інакше люди не будуть задавати питання про те , як мати справу з 0 і 1 в бета - регресії, не писав би документи про 0- і-1 завищені бета-моделі тощо. Я все одно сподіваюся на більш детальну відповідь, ніж Кевіна. Принаймні слід пояснити, як виникають ці терміни в імовірності журналу.
амеба каже: Відновіть Моніку

1
Оновлення: це, мабуть, тому, що якщо в підтримці знаходяться 0 і 1, то PDF у цих точках дорівнює нулю, тобто ймовірність дотримання цих значень дорівнює нулю. Я все одно хотів би побачити відповідь, яка це ретельно пояснює.
Амеба каже: Відновити Моніку

Отже, який розподіл слід використовувати тоді, коли змінна відповіді приймає значення у, скажімо, ? [0,)
Збентежений

Відповіді:


16

Тому що ймовірність логгінгу містить як і log ( 1 - x ) , які не обмежуються, коли x = 0 або x = 1 . Дивіться рівняння (4) Смітсона та Веркуйлена, " Кращий віджимач лимона? Максимально-ймовірний регрес із бета-розподіленими залежними змінними " (пряме посилання на PDF ).log(x)log(1x)x=0x=1


3
Спасибі. Ось пряме посилання PDF на папір . Я бачу, що рівняння (4) вийде з ладу, як тільки або y i = 1 , але я все ще не розумію, чому це відбувається в загальній схемі речей. yi=0yi=1
Амеба каже, що повернеться до Моніки

3
(+1) Амеба, просто подивіться на pdf: для кожного бета-розподілу щільність у та 1 або 0, або + . У будь-якому випадку ймовірність журналу не буде визначеною. Еквівалентно, щойно є одна відповідь 0 або 1 , усі значення ймовірності можуть бути лише нульовими, нескінченними або невизначеними, і буде нетривіальний набір параметрів Бета, для яких реалізується мінімальне значення ймовірності. Таким чином, практичний розрахунок виключається і модель не може бути ідентифікованою (у суворому розумінні). 010+01
качан

1
Разом із коментарем @ whuber (якого я до цього часу не помічав), це відповідає на питання. Основний момент полягає в тому, що для значень параметрів, про які я запитував, і 1 мають нульову ймовірність. 01
амеба каже: Відновіть Моніку

1
@whuber Причиною, що я заплутався, є те, що існує 0 ймовірностей, щоб спостерігати але також існує нуль ймовірності спостерігати, скажімо, 0,5 ( для конкретності візьмемо бета з α = β = 2 ). Тим не менше, 0,5 відповідає моделі, але 0 - ні, і це тому, що ймовірність спостерігати 0,5 не дорівнює нулю, але ймовірність спостерігати 0 - це ...00.5α=β=20.500.50
говорить амеба Reinstate Monica

3
@amoeba Ймовірність залежить від щільності ймовірності , а не від самої ймовірності. Іноді цього можна уникнути, розглядаючи кожне спостереження, щоб включити ймовірність невеликого, але скінченного (не нескінченно малого) інтервалу (визначається, наприклад , точністю вимірювання), або шляхом згортання бета-розподілів з дуже вузьким гауссовим ( що виключає нульову і нескінченну щільність).
whuber

2

лог(х)лог(1-х)

pN

Як результат, в моєму розумінні бета-регресії 0 і 1 інтуїтивно відповідатимуть (нескінченним) впевненим результатам.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.