Застосовувати EDA на тестових даних неправильно.
Навчання - це процес пошуку правильних відповідей, щоб створити найкращу модель. Цей процес він не обмежується лише запуском коду на навчальних даних. Використання інформації від EDA для вирішення, яку модель використовувати, налаштування параметрів тощо, є частиною навчального процесу, а отже, не повинен бути дозволений доступ до тестових даних. Тож, щоб бути вірним собі, використовуйте дані тесту лише для перевірки працездатності вашої моделі.
Крім того, якщо ви усвідомлюєте, що модель не працює добре під час тестування, а потім повертаєтесь до коригування моделі, то це теж не добре. Натомість розділіть свої дані навчання на два. Використовуйте одну для тренувань, а іншу для тестування та налаштування ваших моделей. Див. Яка різниця між тестовим набором та набором перевірки?