Перетворити безперервні змінні для логістичної регресії


11

У мене є великі дані опитування, двійкова змінна результат та багато пояснювальних змінних, включаючи двійкові та безперервні. Я будую набори моделей (експериментую як з GLM, так і зі змішаним GLM) і використовую інформаційно-теоретичні підходи для вибору топ-моделі. Я уважно вивчив пояснення (як безперервні, так і категоричні) на предмет кореляцій, і використовую лише ті ж моделі, у яких коефіцієнт Пірсона або Фікорра менше 0,3. Я хотів би дати всім моїм безперервним змінним справедливий шанс конкурувати за топ-модель. З мого досвіду, трансформація тих, хто цього потребує на основі перекосу, покращує модель, в якій вони беруть участь (нижчий AIC).

Перше моє запитання: це поліпшення, оскільки трансформація покращує лінійність з logit? Або виправлення перекосу покращує баланс пояснювальних змінних, роблячи дані більш симетричними? Я б хотів, щоб я зрозумів математичні причини, які стоять за цим, але поки що, якщо хтось міг би пояснити це простими словами, це було б чудово. Якщо у вас є якісь посилання, які я міг би використати, я дуже вдячний.

Багато веб-сайтів стверджують, що оскільки нормальність не є припущенням бінарної логістичної регресії, не перетворюйте змінні. Але я відчуваю, що, не перетворюючи моїх змінних, я залишаю деякі у невигідному стані порівняно з іншими, і це може вплинути на те, що є топовою моделлю, та змінить умовивід (ну, як правило, це не так, але в деяких наборах даних це відбувається). Деякі з моїх змінних мають кращу ефективність при перетворенні журналу, деякі - у квадраті (різний напрямок перекосу), а деякі - неперетворені.

Хтось міг би дати мені настанову, на що слід бути обережним при перетворенні пояснювальних змінних для логістичної регресії, а якщо цього не робити, то чому б ні?


2
FF110P(Y=1|β,X)=F(Xβ)цей папір .

Хоча написано в іншому контексті, багато чого з того, що ви просите, є у моїй відповіді (або у посиланнях у моїй відповіді) тут: Чи нормально розподілені X і Y мають більше шансів призвести до нормально розподілених залишків?
gung - Відновіть Моніку

Відповіді:


3

xlog(x)

Оскільки ви говорите, що у вас є "великі дані", ви можете роздивитись на сплайни, щоб дані могли говорити про перетворення ... наприклад, пакет mgcv в Р. Але навіть використовуючи таку технологію (або інший методдля автоматичного пошуку перетворень), Кінцева перевірка - запитати себе, що має науковий сенс . ¿Що роблять інші люди у вашій галузі із подібними даними?


Дякую за підтримку моїх турбот: я дійсно маю на увазі те, що має біологічний сенс. Проблема полягає в тому, що у мене фактично є два пов'язані набори даних, і я хотів би зробити висновки з обох одночасно. Але в одному підмножині змінна щільності найкраща в моделях без трансформації, а в іншому - перетворення журналу. Перетворення журналу покращує взаємозв'язок у наборі даних, у якого є нижчі значення для цієї змінної, тому, я думаю, буде дуже важко узгодити ці два набори даних, якщо я не залишу змінну неформованою в обох.
Zsuzsa

1
Експерти в даній галузі рідко здатні пізнати аріорі «правильних» перетворень змінних. Я майже ніколи не бачу лінійних зв’язків, тому коли розмір вибірки вимагає, я розслаблюю це припущення за допомогою регресійних сплайнів. Я роблю результат інтерпретаційним за допомогою малюнків.
Френк Харрелл

3

Найважливішим є питання про те, які числа повинні репрезентувати в реальному світі та яка гіпотезована залежність між цими змінними та залежною змінною. Ви можете вдосконалити свою модель, «очистивши» свої дані, але якщо вона не краще відображає реальний світ, ви були невдалі. Можливо, розподіл ваших даних означає, що ваш підхід до моделювання невірний, і взагалі потрібен інший підхід, можливо, ваші дані мають проблеми.

Чому ви видаляєте змінні, якщо вони мають corr> .3, поза мною. Можливо, ці речі дійсно пов’язані між собою, і обидва важливі для залежної змінної. Ви можете вирішити це за допомогою індексу або функції, що представляє спільний внесок корельованих змінних. Здається, ви сліпо викидаєте інформацію на основі довільних статистичних критеріїв. Чому б не використовувати corr> .31 або .33?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.