Повне розкриття: це домашнє завдання. Я включив посилання на набір даних ( http://www.bertelsen.ca/R/logistic-regression.sav )
Моя мета - максимально спрогнозувати неплатників кредитів у цьому наборі даних.
Кожна модель, яку я придумав поки що, передбачає> 90% неплатників, але <40% неплатників, що робить ефективність класифікації загальною ~ 80%. Отже, мені цікаво, чи існують ефекти взаємодії між змінними? У рамках логістичної регресії, окрім тестування кожної можливої комбінації, чи є спосіб виявити потенційні ефекти взаємодії? Або ж спосіб підвищення ефективності класифікації неплатників.
Я застряг, будь-які рекомендації будуть корисними у виборі слів, R-коду чи синтаксису SPSS.
Мої первинні змінні викладені в наступній гістограмі та розсіянні (за винятком дихотомічної змінної)
Опис первинних змінних:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Додаткові змінні - це лише перетворення вищезазначеного. Я також спробував перетворити кілька безперервних змінних у категоричні змінні та реалізувати їх у моделі, не пощастило.
Якщо ви хочете швидко поставити його в R, ось це:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)