Коли я читав про використання StandardScaler
, більшість рекомендацій говорили про те, що слід використовувати, StandardScaler
перш ніж розділяти дані на поїзд / тест, але коли я перевіряв деякі коди, розміщені в Інтернеті (за допомогою sklearn), було два основних напрямки.
1- Використання StandardScaler
всіх даних. Напр
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_fit = sc.fit(X)
X_std = X_fit.transform(X)
Або
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X = sc.fit(X)
X = sc.transform(X)
Або просто
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_std = sc.fit_transform(X)
2- Використання StandardScaler
розділених даних.
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform (X_test)
Я хотів би стандартизувати свої дані, але мене бентежить, який метод найкращий!