У мене є великі дані опитування, двійкова змінна результат та багато пояснювальних змінних, включаючи двійкові та безперервні. Я будую набори моделей (експериментую як з GLM, так і зі змішаним GLM) і використовую інформаційно-теоретичні підходи для вибору топ-моделі. Я уважно вивчив пояснення (як безперервні, так і категоричні) на предмет кореляцій, і використовую лише ті ж моделі, у яких коефіцієнт Пірсона або Фікорра менше 0,3. Я хотів би дати всім моїм безперервним змінним справедливий шанс конкурувати за топ-модель. З мого досвіду, трансформація тих, хто цього потребує на основі перекосу, покращує модель, в якій вони беруть участь (нижчий AIC).
Перше моє запитання: це поліпшення, оскільки трансформація покращує лінійність з logit? Або виправлення перекосу покращує баланс пояснювальних змінних, роблячи дані більш симетричними? Я б хотів, щоб я зрозумів математичні причини, які стоять за цим, але поки що, якщо хтось міг би пояснити це простими словами, це було б чудово. Якщо у вас є якісь посилання, які я міг би використати, я дуже вдячний.
Багато веб-сайтів стверджують, що оскільки нормальність не є припущенням бінарної логістичної регресії, не перетворюйте змінні. Але я відчуваю, що, не перетворюючи моїх змінних, я залишаю деякі у невигідному стані порівняно з іншими, і це може вплинути на те, що є топовою моделлю, та змінить умовивід (ну, як правило, це не так, але в деяких наборах даних це відбувається). Деякі з моїх змінних мають кращу ефективність при перетворенні журналу, деякі - у квадраті (різний напрямок перекосу), а деякі - неперетворені.
Хтось міг би дати мені настанову, на що слід бути обережним при перетворенні пояснювальних змінних для логістичної регресії, а якщо цього не робити, то чому б ні?