Які корисні алгоритми існують, що працюють на величезних потоках даних, а також їх результати досить малі, і можна обчислити результат для суміші двох потоків, якось об'єднавши їх результати?
Я можу назвати декілька:
- Очевидні речі, такі як сума, min, max, count, top-K тощо.
- Приблизні так звані "ескізні" алгоритми потоку для гістограм, підрахунок окремих елементів або обчислення квантилів
Які там інші?
(Мені цікаво, тому що я пишу проект хобі для моніторингу розподілених систем, корисність яких безпосередньо визначається корисністю таких алгоритмів)