Ми використовуємо hadoop, щоб розділити таблицю на менші файли для подачі в mahout, але в процесі цього ми створили величезну кількість часових журналів.
У нас є кріплення NFS для тома hadoop, тому ми можемо використовувати всі команди Linux для видалення файлів папок, але ми просто не можемо їх видалити, ось що я намагався поки що:
hadoop fs -rmr /.../_temporary : hangs for hours and does nothing
на кріпленні NFS:
rmr -rf /.../_temporary :hangs for hours and does nothing
find . -name '*.*' -type f -delete : same as above
Папки виглядають приблизно так (38 з цих папок всередині _temporary):
drwxr-xr-x 319324 user user 319322 Oct 24 12:12 _attempt_201310221525_0404_r_000000_0
Вміст цих насправді папок, а не файлів. Кожна з цих 319322 папок має рівно один файл всередині. Не впевнений, навіщо вести ведення журналу таким чином.
-name '*.*'
не потрібен, якщо ви використовуєте просто -type d
, можливо, я б використав щось подібне: find . -type d -delete
або find . -name "_temporary" -delete
(залежно від конкретного випадку, можливо, є файли, які не слід видаляти).
-type f
збирається знайти звичайні файли. Ви хочете ,-type d
якщо ви використовуєтеfind
для пошуку папок