Розширення логістичної регресії для результатів в межах від 0 до 1


9

У мене є проблема регресії, коли результати не строго 0, 1, а скоріше в діапазоні всіх реальних чисел від 0 до 1, включаючи .Y=[0,0,12,0,31,...,1]

Ця проблема вже обговорювалася в цій темі , хоча моє питання дещо інше.

Я не можу використовувати лінійну регресію з тих же причин, що зазвичай використовується логістична регресія. У лінійній регресії A) дуже великі значення IV будуть скасувати передбачуваний результат до 1 і B) результат лінійної регресії не обмежується 0,1 межею.

Переглядаючи цю функцію логістичної вартості з мого підручника я вважаю, що рівняння призначене для обчислення вартість, більша за 0, лише коли і не мають однакового значення 0 або 1.

Вартість=-ужурнал(год(х))-(1-у)журнал(1-год(х))
ух

Чи можна було б використовувати логістичну регресію шляхом зміни функції витрат для вимірювання всіх помилок гіпотези?

Відповіді:


9

У вас є кілька варіантів. Дві з них можуть бути:

  1. Якщо ви перетворите свій за допомогою логістичного перетворення ви можете спробувати встановити лінійну регресію через звичайні найменші квадрати до перетвореної змінної відповіді.Yжурнал(у1-у)
  2. Альтернативно, ви можете помістити оригінальну змінну в узагальнену лінійну модель з логістичним перетворенням як змінну вашої ланки та співвідношення між дисперсією і означати те саме, що як би біномальна змінна, що відповідає ітераційним переоціненим найменшим квадратам. Це в основному те саме, що "використання логістичної регресії".Y

Яку з них використовувати, залежатиме від структури помилок, і єдиний спосіб вирішити питання - це встановити їх обоє і побачити, яка з них має залишкову структуру, яка найкраще відповідає припущенням моделі. Я підозрюю, що між ними було б багато чого вибирати. Безумовно, будь-який із цих варіантів буде великим поліпшенням прямолінійної регресії з неперетвореною з причин, які ви говорите.Y


2
(+1) Варіант 2: Зазвичай ви оцінюєте надмірну дисперсію і використовуєте її для обчислення стандартних помилок - "квазібіномійної" моделі, в якій співвідношення між дисперсією та середнім значенням Y пропорційне, а не таке, як у біноміальна змінна.
Scortchi

@Scortchi: Це яка glm()функція в R виконує, коли вона живиться безперервною реакцією і family=quasibinomial? Тобто він оцінить коефіцієнти з, family=binomialа потім на додатковому етапі обчислить стандартні похибки з урахуванням наддисперсії? Якщо так, чи це те саме, що обчислювати "надійні стандартні помилки"? У мене є відповідні дані, і я спробував обидві сім’ї glm; Я отримую однакові коефіцієнти, але відрізняються стандартними помилками. Дякую.
амеба

1
@amoeba: Так, це все. Але "надійні стандартні помилки" зазвичай означають використання сендвіч-оцінювача тощо.
Scortchi


0

Оскільки y - це не суворо нульова або одна (як ви вже сказали), вартість завжди повинна бути більше нуля. Отже, я не думаю, що вам потрібні зміни в моделі.


0

Пропоную дві альтернативні моделі:

Якщо ваші результати (y змінних) упорядковані, спробуйте модель упорядкованого пробіту.

Якщо ваші результати (y змінних) не впорядковані, спробуйте модель Multinomial Logit.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.