З мого інтерфейсу Spark. Що це означає під пропущеним?
Відповіді:
Зазвичай це означає, що дані були отримані з кешу, і не було необхідності повторно виконувати даний етап. Це узгоджується з вашим DAG, який показує, що наступний етап вимагає перемішування ( reduceByKey
). Щоразу, коли відбувається перетасовка, Spark автоматично кешує створені дані :
Перетасовка також генерує велику кількість проміжних файлів на диску. Починаючи з Spark 1.3, ці файли зберігаються до тих пір, поки відповідні RDD більше не використовуються і не збираються сміття. Це робиться для того, щоб файли перетасовки не потрібно було створювати заново, якщо лінія повторно обчислюється.