Відповіді:
Ви не хочете видаляти всі корельовані змінні. Лише тоді, коли кореляція настільки сильна, вони не передають зайвої інформації. Це є як силою кореляції, скільки даних у вас є, чи будь-яка невелика різниця між корельованими змінними все-таки говорить вам про результат.
Перші два ви можете сказати, перш ніж робити будь-яку модель, остаточну ні. Отже, може бути дуже розумним видалення змінних на основі поєднання перших двох міркувань (тобто навіть якщо додаткові змінні в принципі можуть містити корисну інформацію, ви б не змогли сказати, враховуючи силу кореляції та кількість даних перед тим, як робити будь-яку інженерію моделювання / функції. Остаточну точку можна реально оцінити лише після моделювання.
Дивно, що ніхто не згадував про інтерпретацію .
Якщо все, що вас турбує, - це продуктивність , тоді немає сенсу видаляти дві корельовані змінні, якщо тільки кореляція = 1 або -1, у цьому випадку одна із змінних не є зайвою.
Але якщо вас турбує інтерпретація, тоді може бути доцільним видалення однієї зі змінних, навіть якщо кореляція є слабкою. Особливо це стосується лінійних моделей. Одне з припущень лінійної регресії - це відсутність ідеальної мультиколінеарності в предикторах.
Якщо A корелює з B, то ви не можете інтерпретувати коефіцієнти ні A, ні B. Щоб зрозуміти, чому, уявіть собі крайній випадок, коли A = B (ідеальна кореляція). Тоді модель y = 100 * A + 50 * B така ж, як модель y = 5 * A + 10 * B або y = -2000 * A + 4000 * B. У можливих рішеннях проблеми мінімізації квадратних мінімумів є кілька рівноваг, тому ви не можете "довіряти" ні одному.
Подібні речі можуть трапитися і з іншими моделями. Наприклад, якщо A дуже співвідноситься з B, то, якщо дерево рішення обирає A вдвічі більше, ніж B, то ви не можете сказати, що A важливіше, ніж B. Якщо ви перекваліфікуєте модель, могло б статися навпаки.
Слід розглянути можливість перевірки VIF (варіаційного коефіцієнта інфляції). Спробуйте видалити функції з вищим VIF. Як правило, бажано, щоб VIF був нижче 10.
Це не має значення. Але для ефективності перед функціональною інженерією.
Визначте коваріантність та виконайте свою первинну роботу з найвищим набором.