Я успадкував дослідницький кластер із ~ 40 ТБ даних у трьох файлових системах. Дані тягнуться майже до 15 років, і, швидше за все, існує велика кількість дублікатів, оскільки дослідники копіюють дані один одного з різних причин, а потім просто зависають на копії.
Мені відомо про такі інструменти, як дедупінг, як fdupes та rmlint. Я намагаюся знайти той, який буде працювати на такому великому наборі даних. Мені байдуже, чи потрібні тижні (а може навіть і місяці), щоб сканувати всі дані - я, мабуть, придушую це все одно, щоб легко переходити у файлові системи. Але мені потрібно знайти інструмент, який або якось надзвичайно ефективний з оперативною пам’яттю, або може зберігати всі необхідні йому посередницькі дані у файлах, а не в оперативній пам'яті. Я припускаю, що моя оперативна пам'ять (64 ГБ) буде вичерпана, якщо я проскакую всі ці дані як один набір.
Я зараз експериментую з fdupes на дереві 900 Гб. Це 25% шляху, і використання оперативної пам’яті весь час повільно повзає, тепер це 700 Мб.
Або є спосіб направити процес на використання дискової оперативної пам’яті, відображеної на диску, щоб було набагато більше доступних і не використовується системна ОЗУ?
Я запускаю CentOS 6.