Одним з головних прикладів, який використовується при демонстрації сили MapReduce, є тестовий показник Terasort . У мене виникають проблеми з розумінням основ алгоритму сортування, що використовується в середовищі MapReduce.
Для мене сортування просто включає визначення відносного положення елемента по відношенню до всіх інших елементів. Тож сортування передбачає порівняння "всього" з "усім". Ваш середній алгоритм сортування (швидкий, бульбашковий, ...) просто робить це розумним чином.
На мій погляд, розділення набору даних на багато фрагментів означає, що ви можете сортувати одну частину, а потім вам доведеться інтегрувати ці фрагменти у «повний» повністю відсортований набір даних. Зважаючи на набір даних терабайт, розподілений по тисячам систем, я думаю, що це буде величезним завданням.
То як це насправді робиться? Як працює цей алгоритм сортування MapReduce?
Дякуємо, що допомогли мені зрозуміти.