Для нещодавнього змагання Kaggle я (вручну) визначив 10 додаткових функцій для мого навчального набору, які потім будуть використовуватися для тренування випадкового класифікатора лісів. Я вирішив запустити PCA на набір даних з новими функціями, щоб побачити, як вони порівнюють один одного. Я виявив, що ~ 98% дисперсії несе перший компонент (перший власний вектор). Потім я кілька разів тренував класифікатор, додаючи по черзі одну особливість і використовував перехресну перевірку та помилку RMS для порівняння якості класифікації. Я виявив, що класифікація покращується з кожною додатковою функцією, і що кінцевий результат (з усіма 10 новими функціями) був набагато кращим, ніж перший запуск з (скажімо) 2 ознаками.
Зважаючи на те, що PCA стверджував, що ~ 98% дисперсії було в першому компоненті мого набору даних, чому якість класифікацій настільки покращилася?
Чи справедливо це для інших класифікаторів? РЧ-шкала на декількох ядрах, тому тренуватись набагато швидше, ніж (скажімо, SVM).
Що робити, якщо я перетворив набір даних у простір "PCA" і запустив класифікатор на перетвореному просторі. Як змінилися б мої результати?