Коли видалити корельовані змінні


11

Може хто-небудь, будь ласка, підказати, що є правильним етапом для видалення корельованих змінних перед інженерною діяльністю або після інженерної характеристики?

Відповіді:


8

Ви не хочете видаляти всі корельовані змінні. Лише тоді, коли кореляція настільки сильна, вони не передають зайвої інформації. Це є як силою кореляції, скільки даних у вас є, чи будь-яка невелика різниця між корельованими змінними все-таки говорить вам про результат.

Перші два ви можете сказати, перш ніж робити будь-яку модель, остаточну ні. Отже, може бути дуже розумним видалення змінних на основі поєднання перших двох міркувань (тобто навіть якщо додаткові змінні в принципі можуть містити корисну інформацію, ви б не змогли сказати, враховуючи силу кореляції та кількість даних перед тим, як робити будь-яку інженерію моделювання / функції. Остаточну точку можна реально оцінити лише після моделювання.


2

Дивно, що ніхто не згадував про інтерпретацію .

Якщо все, що вас турбує, - це продуктивність , тоді немає сенсу видаляти дві корельовані змінні, якщо тільки кореляція = 1 або -1, у цьому випадку одна із змінних не є зайвою.

Але якщо вас турбує інтерпретація, тоді може бути доцільним видалення однієї зі змінних, навіть якщо кореляція є слабкою. Особливо це стосується лінійних моделей. Одне з припущень лінійної регресії - це відсутність ідеальної мультиколінеарності в предикторах.

Якщо A корелює з B, то ви не можете інтерпретувати коефіцієнти ні A, ні B. Щоб зрозуміти, чому, уявіть собі крайній випадок, коли A = B (ідеальна кореляція). Тоді модель y = 100 * A + 50 * B така ж, як модель y = 5 * A + 10 * B або y = -2000 * A + 4000 * B. У можливих рішеннях проблеми мінімізації квадратних мінімумів є кілька рівноваг, тому ви не можете "довіряти" ні одному.

Подібні речі можуть трапитися і з іншими моделями. Наприклад, якщо A дуже співвідноситься з B, то, якщо дерево рішення обирає A вдвічі більше, ніж B, то ви не можете сказати, що A важливіше, ніж B. Якщо ви перекваліфікуєте модель, могло б статися навпаки.




Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.