Привіт, це моє перше питання в стеці Data Science. Я хочу створити алгоритм класифікації тексту. Припустимо, у мене є великий набір тексту та статей. Скажімо, близько 5000 простих текстів. Спочатку використовую просту функцію для визначення частоти всіх чотирьох і вище символьних слів. Потім я використовую це як особливість кожного навчального зразка. Тепер я хочу, щоб мій алгоритм міг кластерувати навчальні набори відповідно до їх особливостей, яка тут частота кожного слова в статті. (Зауважте, що в цьому прикладі кожна стаття мала б свою унікальну особливість, оскільки кожна стаття має різну особливість; наприклад, у статті є 10 "води та 23" у чистоті, а в іншій - 8 "політик" та 14 "важелів"). Чи можете ви запропонувати найкращий алгоритм кластеризації для цього прикладу?