2
Чому в ідентифікації мови тексту замість слів використовується n-грам?
У двох популярних мовних ідентифікаційних бібліотеках, компактному детекторі мови 2 для C ++ та мовному детекторі для Java, обидві вони використовували (на основі символів) n-грамів для отримання тексту. Чому мішок слів (одне слово / словник) не використовується, і яка перевага та недолік мішок слів і n-грам? Крім того, які ще …