(Припустимо, що ви говорите про контрольоване навчання)
Зв'язані функції не завжди погіршать вашу модель, але вони також не завжди вдосконалять її.
Є три основні причини, з яких ви видалите відповідні функції:
- Зробіть алгоритм навчання швидшим
Через прокляття розмірності менші характеристики зазвичай означають високе поліпшення швидкості.
Якщо швидкість не є проблемою, можливо, не видаляйте ці функції відразу (див. Наступний пункт)
Ключове слово шкідливо. Якщо у вас є корельовані функції, але вони також співвідносяться з цільовою, ви хочете зберегти їх. Ви можете розглядати функції як підказки, щоб добре здогадатися, якщо у вас є два підказки, які по суті є однаковими, але вони є хорошими підказками, може бути розумним їх зберігати.
Деякі алгоритми, як Naive Bayes, насправді отримують пряму користь від "позитивних" співвіднесених особливостей. І інші, як випадковий ліс, можуть побічно отримати від них користь.
Уявіть, що у вас є 3 ознаки A, B і C. A і B сильно співвідносяться з ціллю та один з одним, а C - зовсім не так. Якщо ви вибираєте з трьох функцій, у вас є 2/3 шанси отримати "гарну" функцію, тоді як якщо ви видалите B, наприклад, цей шанс падає до 1/2
Звичайно, якщо корельовані функції в першу чергу не надто інформативні, алгоритм може не сильно постраждати.
Тож мораль історії, видалення цих особливостей може знадобитися через швидкість, але пам’ятайте, що ви можете погіршити свій алгоритм у процесі. Також деякі алгоритми, такі як дерева рішень, мають вбудований вибір функції.
Хороший спосіб впоратися з цим - використовувати метод обгортки для вибору функції. Це видалить зайві функції, лише якщо вони не сприяють безпосередньо продуктивності. Якщо вони корисні, як у наївних бухтах, вони будуть зберігатися. (Хоча пам’ятайте, що способи обгортки дорогі і можуть призвести до переобладнання)
- Інтерпретаційність вашої моделі
Якщо ваша модель потребує інтерпретації, можливо, ви будете змушені її спростити. Не забудьте також пам’ятати бритву Оккама. Якщо ваша модель не так «гірша» з меншими можливостями, то, ймовірно, слід використовувати менше функцій.