Ви повинні розділитись перед попередньою обробкою чи введенням тексту.
Розділ між навчальним і тестовим набором - це спроба повторити ситуацію, коли у вас є попередня інформація, і будуєте модель, яку ви будете перевіряти на майбутній ще невідомій інформації: навчальний набір займає місце минулого, а тестовий набір займає місце майбутнього, тож ви зможете протестувати свою навчену модель лише один раз.
Маючи на увазі аналогію минулого / майбутнього, це означає, що ви робите, щоб попередньо обробити або обробити ваші дані, наприклад, введення пропущених значень, ви повинні робити лише на навчальному наборі. Потім ви можете згадати, що ви зробили з вашим навчальним набором, якщо ваш тестовий набір також потребує попередньої обробки або введення тексту, щоб ви зробили це однаково на обох наборах.
Додано з коментарів: якщо ви використовуєте дані тестування для впливу на дані тренувань, то дані тестування використовуються для побудови вашої моделі, тому вони перестають бути тестовими даними та не дадуть справедливого тесту вашої моделі. Ви ризикуєте переоцінити, і це було змусити це відмовитись, перш за все, від даних тестів