Як слід перевірити припущення про лінійність logit для безперервних незалежних змінних в аналізі логістичної регресії?


13

Я плутаю припущення про лінійність logit для безперервних змінних прогнозів в аналізі логістичної регресії. Чи потрібно перевіряти лінійну залежність під час скринінгу на потенційних прогнокторів, використовуючи невідмінний логістичний регресійний аналіз?

У моєму випадку я використовую багаторазовий логістичний регресійний аналіз для виявлення факторів, пов’язаних із статусом харчування (дихотомічним результатом) серед учасників. Неперервні змінні, включаючи вік, показник супутньої захворюваності Чарлсона, показник індексу Бартгеля, міцність зчеплення рукою, оцінка GDS, ІМТ тощо. Мій перший крок - перевірка значущих змінних за допомогою простої логістичної регресії. Чи потрібно перевіряти припущення про лінійність під час простих логістичних регресійних аналізів для кожної безперервної змінної? Або я просто повинен перевірити це в остаточній моделі множинної логістичної регресії?

Крім того, для мого розуміння нам потрібно перетворити нелінійну безперервну змінну, перш ніж ввести її в модель. Чи можу я класифікувати нелінійну безперервну змінну замість перетворення?


1
Ви повинні НЕ класифікувати, краще спробувати шліци!
kjetil b halvorsen

Відповіді:


11

Як я детально описую в своїй книзі " Стратегії моделювання регресії" (друге видання доступно 2015-09-04, електронна книга доступна зараз), процес спроби перетворення змінних перед моделюванням пов'язаний з проблемами, однією з найважливіших - спотворенням. інтервали помилок і довірчих типів I типу. Категоризація викликає ще більш серйозні проблеми, особливо відсутність пристосованості та свавілля.

Замість того, щоб думати про це як про проблему "перевірка на відсутність придатності", краще подумати про це як про уточнення моделі, яка, ймовірно, підходить. Один із способів зробити це - розподілити параметри до частин моделі, які, ймовірно, є сильними і для яких лінійність, як відомо, вже не є розумним припущенням. У цьому процесі вивчається ефективний розмір вибірки (у вашому випадку мінімальна кількість подій та кількість не-подій) та дозволяє складність настільки, наскільки дозволяє інформаційний вміст даних (використовуючи, наприклад, 15: 1 події: правило параметра великого пальця). Попередньо вказавши гнучку аддитивну параметричну модель, помилятиметься лише там, де це має значення, опускаючи важливі взаємодії. Взаємодії повинні бути заздалегідь визначені, загалом кажучи.

Ви можете перевірити, чи потрібна була нелінійність у моделі за допомогою формального тесту (спрощеного за допомогою rmsпакету R ), але усунення таких термінів, коли незначне створює інфекційні спотворення, які я окреслив вище.

Більш детальну інформацію можна знайти в курсових записках, пов’язаних з http://biostat.mc.vanderbilt.edu/rms .


Вибачте, що не згадували про це раніше, але я не знайомий з R і використовував SPSS для аналізів. Чи випливає із запропонованого рішення, що якщо я використовую ефективний розмір вибірки (15: 1), я можу включити всі важливі фактори (з огляду), не перевіряючи їх лінійність?
Sze Lin Tan

З аналізу однозначної логістичної регресії, яку я зробив у моєму випадку, ІМТ, окружність телят, окружність середньої плечі вносять вагомий внесок у просту модель логістичної регресії стану харчування (p <0,05). Але виявилося, що вони не виконували припущення про лінійність, коли я перевіряв припущення, використовуючи підхід Box-Tidwell (для кожної простої логістичної моделі). Тому я не впевнений, чи слід переходити до багаторазового логістичного регресійного аналізу з цими провісниками чи ні.
Sze Lin Tan

5
Неможливо будувати моделі на основі однозначного аналізу. Ви використовуєте варіант для поступової регресії, яка, як відомо, викликає безліч проблем.
Френк Харрелл

8

Логістична регресія НЕ передбачає лінійної залежності між залежною та незалежною змінними. Він передбачає лінійну залежність між коефіцієнтами журналу залежної змінної та незалежними змінними (це головним чином проблема з безперервними незалежними змінними.) Існує тест під назвою Box-Tidwell, який ви можете використовувати для цього. Команда stata - boxtid. Я не знаю команди SPSS, вибачте.

Це може допомогти - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


Зараз посилання розірвано.
Олексій Кущ

1

Я думаю, що ми повинні побудувати безперервні змінні та перевірити на лінійність, перш ніж використовувати їх у регресійній моделі. Якщо лінійність здається розумним припущенням, я думаю, що це, мабуть, все-таки буде в остаточній моделі багатовимірної регресії в більшості випадків, а якщо ні, то я думаю, що це в першу чергу може бути спричинене ефектами взаємодії, які ви можете виправити.

Так, категоризація нелінійних безперервних змінних є одним із варіантів. Проблеми з цим полягають у тому, що категорії в більшості випадків можуть здаватися довільними, і невеликі відмінності в оціночних показниках між категоріями можуть призвести до різних результатів (особливо щодо статистичної значущості), і залежно від кількості категорій та розміру ваших даних , ви можете втратити в даних багато цінної інформації.

Альтернативний підхід полягає у використанні узагальненої моделі добавок, яка є регресійною моделлю, яку можна вказати як логістичну регресію, але в яку ви можете включати нелінійні незалежні змінні як "плавніші функції". Технічно це не дуже складно в R, але я не знаю про інші програмні пакети. Ці моделі визначатимуть нелінійні відношення до залежних змінних, але недоліком може бути те, що ви не отримаєте акуратних і охайних чисел у своєму виведенні, а візуальну криву, перевірну на статистичну значимість. Тож залежить від того, наскільки ви зацікавлені у кількісному оцінці впливу нелінійної змінної на змінну результату.

Нарешті, ви можете використовувати узагальнені моделі добавок, як описано вище, для перевірки припущень щодо лінійності у вашій логістичній регресійній моделі, принаймні, якщо ви використовуєте R.

Погляньте на цю книгу (зовсім інша сфера від вашої та моєї, але це зовсім не має значення): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? тобто = UTF8 & qid = 1440928328 & sr = 8-1 & ключові слова = зур + екологія


Я не знайомий з R і використовував SPSS для аналізів. Вибачте, що не згадували про це раніше. Чи можу я використати підхід Box-Tidwell (створивши термін взаємодії між безперервною змінною та власним природним журналом та додавши термін взаємодії до моделі), щоб перевірити припущення про лінійність?
Sze Lin Tan

1

Оскільки я не знаю ваших даних, я не знаю, чи поєднання цих трьох змінних - основної змінної, її природного журналу та інтерактивного терміна - буде проблемою. Однак я знаю, що в минулому, коли я розглядав поєднання трьох термінів, я часто втрачаю концептуальні сліди того, що вимірюю. Вам потрібно добре розібратися в тому, що ви вимірюєте, або ви будете мати проблеми з поясненням своїх висновків. Сподіваюся, що це допомагає!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.