Мабуть, це не дуже добре. Спочатку розглядаючи всі індивідуальні коваріати, а потім будуючи модель із значущими, логічно еквівалентна процедурі автоматичного пошуку. Хоча цей підхід інтуїтивно зрозумілий, умовиводи, зроблені в рамках цієї процедури, недійсні (наприклад, справжні p-значення відрізняються від тих, про які повідомляє програмне забезпечення). Проблема збільшується тим, що більший розмір початкового набору коваріатів. Якщо ви все одно зробите це (і, на жаль, багато людей), ви не можете сприймати отриману модель серйозно. Натомість потрібно провести абсолютно нове дослідження, зібравши незалежний зразок та встановивши попередню модель, щоб перевірити його. Однак для цього потрібно багато ресурсів, і, крім того, оскільки процес є хибним, а попередня модель, ймовірно, погана,витрачати багато ресурсів.
Кращий спосіб - оцінити моделі, що становлять інтерес для вас. Потім використовуйте інформаційний критерій, який карає гнучкість моделі (наприклад, АПК) для вирішення серед цих моделей. Для логістичної регресії AIC дорівнює:
А яС= - 2 × ln( ймовірність ) + 2 к
де - кількість коваріатів, включених у цю модель. Ви хочете, щоб модель з найменшим значенням для AIC, при цьому всі рівні. Однак це не завжди так просто; будьте обережні, коли кілька моделей мають подібні значення для AIC, навіть якщо одна може бути найнижчою. к
Я включаю тут повну формулу для AIC, оскільки різні програми виводять різну інформацію. Можливо, вам доведеться обчислити його лише з вірогідності, або ви можете отримати остаточний АПК або щось середнє.