Особисто мені подобається ділити вибір функції на два:
- непідконтрольний вибір функцій
- підбір контрольованих функцій
Непідконтрольний вибір функцій - це такі як кластеризація або PCA, де ви вибираєте найменш надмірний діапазон функцій (або створюєте функції з невеликою надмірністю). Контрольований вибір функцій - такі речі, як Лассо, де ви вибираєте функції з найбільшою силою прогнозування.
Я особисто віддаю перевагу тому, що я називаю контрольованим вибором функцій. Отже, використовуючи лінійну регресію, я б вибирав функції, засновані на Лассо. Подібні методи існують для індукції розрідженості в нейронних мережах.
Але насправді я не бачу, як би мені це зробити в методі, що використовує ядра, тому вам, мабуть, краще використовувати те, що я називаю непідконтрольним вибором функцій.
EDIT: Ви також запитували про регуляризацію. Я вважаю, що регуляризація допомагає здебільшого тому, що ми працюємо з обмеженими зразками, і тому розподіл навчань та тестувань завжди дещо відрізнятиметься, і ви хочете, щоб ваша модель не переоцінювалась. Я не впевнений, що це усуває необхідність уникати вибору функцій (якщо їх справді багато). Я думаю, що вибір функцій (або створення меншої їх підмножини) допомагає, роблячи функції, які ви робите, більш надійними та уникати моделі вчитися на помилкових кореляціях. Отже, регуляризація допомагає, але не впевнена, що це повна альтернатива. Але я не надто ретельно подумав про це.