5
Розуміння min_df та max_df у scikit CountVectorizer
У мене є п’ять текстових файлів, які я ввожу в CountVectorizer. При зазначенні min_df та max_df для екземпляра CountVectorizer, що саме означає мінімальна / максимальна частота документа? Це частота слова у конкретному текстовому файлі чи частота слова у всьому загальному корпусі (5 текстових файлів)? Чим відрізняється, коли min_df та max_df …