Регресія для результату (співвідношення або частка) між 0 і 1


42

Я маю на увазі побудувати модель, яка передбачає співвідношення , де a b і a > 0 і b > 0 . Отже, співвідношення було б між 0 і 1 .a/baba>0b>001

Я міг би використовувати лінійну регресію, хоча вона, природно, не обмежується 0..1. У мене немає підстав вважати, що стосунки лінійні, але, звичайно, його часто використовують як просту першу модель.

Я міг би використати логістичну регресію, хоча зазвичай вона використовується для прогнозування ймовірності результату двох станів, а не для прогнозування постійного значення з діапазону 0..1.

Не знаючи нічого більше, чи використовували б ви лінійну регресію, логістичну регресію або прихований варіант c ?


4
Чи розглядали ви бета-регресію?
Пітер Флом - Відновіть Моніку

Велике спасибі всім, хто відповів. Мені доведеться вчитися і вибирати. Звучить, як бета - пристойне місце для початку, особливо якщо я можу спостерігати, як добре (можливо, на очі).
dfrankow

Я бачив це, використовуючи GLM (функція Poisson link). Чисельник a - це дані підрахунку (результат), а знаменник b - змінна зміна. Тоді вам знадобляться окремі значення a і b для кожного предмета / спостереження. Я просто не впевнений, чи це найбільш вірний варіант. Я вважаю дистрибутив Beta цікавим варіантом - про який я не чув. Однак мені важко зрозуміти, будучи нестатистом.
MegPophealth

Дякую всім вам за ваш глибокий та корисний аналіз. Зараз я стикаюся майже з таким же завданням, але замість того, щоб прогнозувати постійний діапазон співвідношення між 0-1, я швидше хочу створити регресійну модель для прогнозування діапазону корисності пацієнтів між -1 і 1. Це досить хитро, я не зміг знайти будь-яку функцію зв’язку, яка була б доцільною для створення регресійної моделі з безперервним залежним діапазоном від -1 до 1. Тож хлопці просто хочуть мати поняття про те, що можна зробити. Дякую,

1
y(y+1)/2[0,1]

Відповіді:


34

Вам слід вибрати "прихований варіант c", де c - бета-регресія. Це тип регресійної моделі, який підходить, коли змінна відповіді розподіляється як бета-версія . Ви можете вважати це аналогом узагальненої лінійної моделі . Це саме те, що ви шукаєте. Існує пакет в Rназивається betareg , яка займається цим. Я не знаю, чи використовуєте ви R, але навіть якщо ви цього не зробили, ви б не могли прочитати "віньєтки", вони дадуть вам загальну інформацію про тему, а також як її реалізувати R(що вам не знадобиться в той випадок).


Редагування (набагато пізніше): Дозвольте зробити коротке уточнення. Я трактую питання як співвідношення двох, позитивних, реальних цінностей. Якщо так, то (і вони поширюються як Гамми), це бета-версія. Однак, якщо - це кількість "успіхів" з відомого сукупного, , "випробувань", то це було б пропорційним числом , а не безперервною пропорцією, і ви повинні використовувати двочленний GLM (наприклад, логістичний регресія). Про те, як це зробити в R, див. Наприклад Як зробити логістичну регресію в R, коли результат є дробовим (співвідношення двох рахунків)?b a / baba/b

Іншою можливістю є використання лінійної регресії, якщо співвідношення можна трансформувати так, щоб відповідати припущенням стандартної лінійної моделі, хоча я не був би оптимістично налаштований на це.


1
Ви б не хотіли детальніше зупинитися на тому, чому бета-регресія буде кращою в цьому випадку? Це рекомендація, яку я бачу тут досить часто, але насправді я не бачу, щоб хтось розробляв обґрунтування - це було б добре!
Метт Паркер

4
@MattParker, бета-версія - це розподіл безперервних пропорцій - якщо це те, що ви є змінною відповіді, то Beta - це відповідний розподіл, який слід використовувати. Це дійсно так просто. Встановлене значення з логістичної регресії - це ймовірність (яка, очевидно, безперервна), але розподіл є двочленним (деяка кількість випробувань Бернуллі з / ймовірністю успіху ), якщо ваша змінна відповідь не є набором випробувань Бернуллі, то LR не є відповідний. p
gung - Відновіть Моніку

3
Я б з обережністю сказав, що бета - це "" відповідний розподіл, який потрібно використовувати. Вона досить гнучка і може бути доречною, але не охоплює всіх випадків. Тож, хоча це гарна пропозиція, і це може бути саме те, що вони хочуть - ви не можете реально сказати, що це відповідний розподіл виключно на тому, що це безперервна відповідь між 0 і 1.
Dason

1
Трикутний розподіл на [0,1] являє собою безперервний розподіл на пропорції, що не є бета-версією. Могло бути багато інших. Бета - це гнучка сім'я, але в цьому немає нічого магічного. Ви дійсно добре підкреслюєте логістичну регресію, оскільки вона звичайно застосовується до двійкових даних.
Майкл Черник

2
Можливо, я повинен спробувати здатися менш догматичним. Я мав на увазі те, що ви вивчаєте свій DV та використовуєте його розподіл, який випливає. Правда, є й інші розподіли суцільних пропорцій. Технічно Beta - це відношення гамми до суми її + іншої гамми. У даній ситуації різний розподіл міг би бути вищим; наприклад, бета-версія не може приймати значення лише 0 або 1 (0, 1). Тим не менш, Beta добре зрозуміла і дуже гнучка з лише 2 параметрами. Я стверджую, що при роботі з бездротовим відеозаписом, який є постійною пропорцією, це, як правило, найкраще місце для початку.
gung - Відновіть Моніку

2

Це парні зразки чи дві незалежні популяції?

XiXiMiXiMi

Ваш перехват цього регресу буде log (B), а ваш нахил буде log (співвідношення).

Дивіться більше тут:

Beyene J, Moineddin R. Методи оцінки довірчого інтервалу параметра співвідношення із застосуванням коефіцієнтів розташування. Методика медичних досліджень BMC. 2005; 5 (1): 32.

EDIT: Я написав аддон SPSS, щоб зробити саме це. Я можу поділитися цим, якщо вам цікаво.


1
З цікавості, який метод ви використовували (дельта, Філлер або GLM)? Мене трохи забиває, що стаття BMC не робила симуляцій висвітлення різних оцінювачів (хоча мріяти про реалістичне моделювання було б прикро). Мені це нагадали, тому що я нещодавно натрапив на документ, який робить метод дельти (без реального обґрунтування), хоча він цитує статтю BMC.
Andy W

1
Ще коли я писав цей коментар, я використовував REGRESSIONпісля перетворення даних журналу. Відтоді я написав більш складну версію, яка використовує GLM. Я маю справу з вимірюванням випромінювання світла, і моє тестування запропонувало регрес гамма-гамма з лог-ланкою був найменш схильним до невимушеної невизначеності параметрів. Більшість моїх реальних даних відповіді від використання нормальних, негативно-біноміальних та гамма з log-link були дійсно схожими (принаймні до потрібної точності)
DocBuckets,

0

Xii=1,2,..,kkp1pp=exp(x)[1+exp(x)]x


p

2
-1. Я згоден з @amoeba. Мені спантеличено, чому це коли-небудь було схвалено. Це не стосується питання, який взагалі не передбачає двійкових даних 0 або 1, але орієнтований на виміряні пропорції, що становлять від 0 до 1 включно.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.