Дослідження стійкості логістичного регресу проти порушення лінійності logit


10

Я веду логістичну регресію з бінарним результатом (початок і не запуск). Моя сукупність предикторів - це або безперервні, або дихотомічні змінні.

Використовуючи підхід Box-Tidwell, один із моїх постійних прогнозів потенційно порушує припущення про лінійність logit. Немає вказівки зі статистики про пристосованість, яка підходить, є проблематичною.

Згодом я знову запустив регресійну модель, замінюючи початкову безперервну змінну: по-перше, квадратним кореневим перетворенням, по-друге, дихотомічною версією змінної.

З огляду на вихід, здається, що якість придатності незначно покращується, але залишки стають проблематичними. Оцінки параметрів, стандартні помилки та залишаються відносно схожими. Інтерпретація даних не змінюється з точки зору моєї гіпотези на трьох моделях.exp(β)

Тому, з точки зору корисності моїх результатів та сенсу інтерпретації даних, видається доречним повідомити про регресійну модель, використовуючи оригінальну безперервну змінну.

Мені це цікаво:

  1. Коли логістична регресія є надійною щодо можливого порушення лінійності припущення logit?
  2. З огляду на мій вище приклад, чи здається прийнятним включити в модель оригінальну безперервну змінну?
  3. Чи є якісь посилання чи посібники для рекомендації, коли задовільно визнати, що модель є надійною щодо можливого порушення лінійності logit?

Відповіді:


16

Припущення про лінійність настільки часто порушується в регресії, що його слід називати несподіванкою, а не припущенням. Як і інші регресійні моделі, логістична модель не є надійною до нелінійності, коли ви помилково припускаєте лінійність. Замість того, щоб виявити нелінійність за допомогою залишків або всебічної корисності придатних тестів, краще використовувати прямі тести. Наприклад, розгортайте безперервні прогнози за допомогою регресійних сплайнів і робіть складений тест всіх нелінійних доданків. Ще краще не перевіряйте терміни, а просто очікуйте нелінійності. Цей підхід набагато кращий, ніж спробувати різні односхилі варіанти перетворень, такі як квадратний корінь, журнал тощо, оскільки статистичні умовиводи виникають після таких аналізів, будуть неправильними, оскільки він не має достатньо великих ступенів свободи чисельника.

Ось приклад у Р.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

Ваша відповідь має фантастичний сенс - дякую! Чи можете ви запропонувати використовувати синтаксис у SPSS? Я, на жаль, не маю доступу (або вмінь) використовувати Р.
Короткий Елізабет

1
Це, безумовно, варто, щоб вивчити R, і у мене є багато роздаткових матеріалів, пов'язаних з логістичним моделюванням та пакетом rms. Це було б важко зробити в SPSS.
Френк Харрелл

@FrankHarrell: f <- lrm(y ~ ...рядок видає помилку object 'y' not found- ви можете виправити?
аріельф

1
Це дуже основна помилка R, не властива моєму rmsпакету. Витратьте деякий час на знайомство з R, починаючи з великого матеріалу, доступного для основної lmфункції регресії .
Френк Харрелл

1
Приклади, вбудовані на довідкові сторінки програмного забезпечення, імітують такі дані, тому подивіться на весь приклад у контексті. У require(rms)той ?lrmтодіexamples(lrm)
Frank Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.