Відповідно до документації об'єкта StandardScaler в scikit-learn:
Наприклад, багато елементів, які використовуються в об'єктивній функції алгоритму навчання (наприклад, ядро RBF в підтримці векторних машин або регуляризатори L1 і L2 лінійних моделей), припускають, що всі функції зосереджені навколо 0 і мають відмінність в одному порядку. Якщо функція має дисперсію, яка на порядок більше, ніж інші, вона може домінувати над цільовою функцією і змушує оцінювач не в змозі правильно вчитися на інших ознаках, як очікувалося.
Я повинен масштабувати свої особливості перед класифікацією. Чи є якийсь простий спосіб показати, чому я повинен це робити? Посилання на наукові статті були б ще кращими. Я вже знайшов одного, але, мабуть, багато іншого.