dd: Як обчислити оптимальний розмір блоків? [зачинено]


122

Як обчислити оптимальний розмір блоку під час запуску dd? Я трохи це досліджував, і не знайшов нічого, що б підказало, як би це було досягнуто.

Я маю враження, що більший розмір блоку може привести до швидшого dd... це правда?

Я збираюся до ddдвох однакових 500-футових Hitachi HDD, які працюють на 7200 об / хв на коробці з Intel Core i3 з 4 ГБ оперативної пам’яті DDR3 1333 МГц, тому я намагаюся розібратися, який блокбіз використовувати. (Я буду завантажувати Ubuntu 10.10 x86 з флешки та запускати її з цього.)


Прийнято @ tdg5 відповідь для macOS - macos_dd_ibs_test.sh та macos_dd_obs_test.sh
міксель

1
найкращою відповіддю було б внести функцію, щоб ddзнайти оптимальний розмір блоку під час передачі файлу
Борис

Чому це було позначено поза темою і не перейшло до суперпользователя?
користувач267092

Відповіді:


95

Оптимальний розмір блоку залежить від різних факторів, включаючи операційну систему (та її версію), а також різні апаратні шини та диски. Кілька Unix-подібних систем (включаючи Linux і хоча б деякі аромати BSD) визначають st_blksizeчлена в тому, struct statщо дає те, що ядро ​​вважає оптимальним розміром блоку:

#include <sys/stat.h>
#include <stdio.h>

int main(void)
{
    struct stat stats;

    if (!stat("/", &stats))
    {
        printf("%u\n", stats.st_blksize);
    }
}

Найкращим способом може бути експеримент: скопіюйте гігабайт з різними розмірами блоків і час, який потрібно. (Не забудьте очистити кеші буфера ядра перед кожним запуском:) echo 3 > /proc/sys/vm/drop_caches.

Однак, як правило, я виявив, що достатньо великий розмір блоку дозволяє ddзробити гарну роботу, і відмінності між, скажімо, 64 Кбайт і 1 МіБ незначні, порівняно з 4 КБ проти 64 КБ. (Хоча, правда, минув такий час, як я це зробив. Зараз я використовую мебібайт за замовчуванням або просто нехай ddвибирають розмір.)


11
Мені дуже шкода, що ніколи не сприймав це як відповідь ... дякую!
eckza

Відмінний момент щодо запам'ятовування скидання кешів. Це зіпсувало мої вимірювання! (Хоча незначна проблема: це "drop_caches", з підкресленням. Мабуть, редагувань має бути не менше 6 символів ... :()
Том

73

Як вже говорили інші, загальноправильного розміру блоку немає; те, що є оптимальним для однієї ситуації або один апарат, може бути дуже неефективним для іншого. Крім того, залежно від стану здоров'я дисків, можливо, краще використовувати інший розмір блоку, ніж "оптимальний".

Єдине, що досить надійно в сучасному обладнанні - це те, що розмір блоку за замовчуванням у 512 байтів, як правило, майже на порядок повільніше, ніж більш оптимальна альтернатива. Коли ви сумніваєтесь, я виявив, що 64K - досить солідний сучасний дефолт. Хоча 64K зазвичай не є оптимальним розміром блоку, на мій досвід, він, як правило, набагато ефективніший, ніж за замовчуванням. 64K також має досить міцну історію надійності роботи: Ви можете знайти повідомлення зі списку розсилки Eug-Lug, близько 2002 року, рекомендуючи розмір блоку 64K тут: http://www.mail-archive.com/eug- lug@efn.org/msg12073.html

Для визначення оптимального розміру вихідного блоку я написав наступний скрипт, який перевіряє запис тестового файлу 128M з dd у діапазоні різних розмірів блоку, від 512 байт до максимуму 64M. Будьте попереджені, цей сценарій використовує dd внутрішньо, тому використовуйте з обережністю.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Переглянути на GitHub

Я протестував цей сценарій лише в системі Debian (Ubuntu) і на OSX Yosemite, тому, можливо, знадобиться певна настройка, щоб зробити роботу над іншими ароматами Unix.

За замовчуванням команда створить тестовий файл під назвою dd_obs_testfile у поточному каталозі. Крім того, ви можете надати шлях до користувальницького тестового файлу, вказавши шлях після імені сценарію:

$ ./dd_obs_test.sh /path/to/disk/test_file

Вихід сценарію - це список тестованих розмірів блоків та їх відповідні швидкості передачі:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Примітка. Одиниця швидкості передачі залежить від ОС)

Щоб перевірити оптимальний розмір блоку читання, ви можете використовувати більш-менш той самий процес, але замість того, щоб читати з / dev / zero і записувати на диск, ви читали з диска і писали в / dev / null. Сценарій для цього може виглядати так:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Переглянути на GitHub

Важлива відмінність у цьому випадку полягає в тому, що тестовий файл - це файл, записаний сценарієм. Не вказуйте цю команду на існуючий файл, інакше існуючий файл буде перезаписаний нулями!

Для мого конкретного обладнання я виявив, що 128K був найбільш оптимальним розміром вхідного блоку на жорсткому диску, а 32K - найбільш оптимальним на SSD.

Хоча ця відповідь охоплює більшість моїх висновків, я досить часто стикався з цією ситуацією, коли писав про це в блозі: http://blog.tdg5.com/tuning-dd-block-size/ Ви можете знайти більш детальну інформацію на тестах, які я там виконував.


1
Я запустив другий сценарій, перевіряючи ефективність читання, на 2015 рМБП із 512G SSD. Найкращий розмір блоку склав 8388608: 3,558 Гбайт / сек.
Квінн Комендант

1
ВИКОРИСТАННЯ: Другий сценарій, перевіряючи ефективність читання, я запустив на rMBP 2015 з 512 Гб SSD. Найкращий розмір блоку становив 524288 (5.754 ГБ / сек). Другий кращий розмір блоку становив 131072 (5,133 ГБ / сек). (Я неправильно сортував результати, генеруючи значення для мого останнього коментаря.)
Quinn Comendant

Бо dd_obs_test.sh conv=fsyncне працює на macOS і його можна видалити.
риноп

На моєму досвіді, для більш точного розміру блоку потрібна більш висока вибірка (кілька секунд. Я здогадуюсь, що файл 128 Мб повинен зробити це, але я не впевнений). Не знаю чому.
Рольф

2
Чувак! Яка дивовижна відповідь. Це як знайти золоту шахту, викопати тонну бруду, а потім обробити її, щоб знайти ЗОЛОТИЙ НАРОД, який я хотів: 64K Спасибі велике.
SDsolar

10

Я знайшов, що оптимальним розміром блоку є 8 Мб (що дорівнює кеш-пам’яті диска?) Мені потрібно було стерти (деякі кажуть: помити) порожній простір на диску, перш ніж створити його стиснене зображення. Я використав:

cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero

Я експериментував зі значеннями від 4К до 100М.

Після дозволу dd деякий час працювати, я вбив його (Ctlr + C) і прочитав вихід:

36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s

Оскільки ДД відображає швидкість введення / виводу (в цьому випадку 19,1 МБ / с), легко зрозуміти, чи вибране вами значення працює краще, ніж попереднє або гірше.

Мої оцінки:

bs=   I/O rate
---------------
4K    13.5 MB/s
64K   18.3 MB/s
8M    19.1 MB/s <--- winner!
10M   19.0 MB/s
20M   18.6 MB/s
100M  18.6 MB/s   

Примітка. Щоб перевірити, який розмір кешу / буфера вашого диска, ви можете використовувати sudo hdparm -i /dev/sda


4
Ви проводили кожен тест лише один раз? Я думаю, що ви можете бачити з ≥64K, це те, що буфер вже заповнений, а різниця - лише випадкова дисперсія.
Мадс Y

Я чув колись великі значення, які потенційно можуть бути вузькими. Людина працювала з великим файлом. Було б добре, якби я міг почути більше про це.
Тодд Партрідж

1
Мій досвід теж підказує 8M, що важко перемогти.
Шрідхар Сарнобат

Цікаво. Як ви думаєте, це стосується розміру кешу L3 чи ні? Мені цікаво, чи б розміри блоків, більші за кеш L3, йшли повільніше.
SurpriseDog

3

Це повністю залежить від системи. Вам слід експериментувати, щоб знайти оптимальне рішення. Спробуйте почати з bs=8388608. (Оскільки на жорстких дисках Hitachi є кеш-пам'ять 8 МБ.)


5
багато версій DD приймають скорочення: тобто bs=8Mв GNU / Linux або bs=8mв BSD
pascal

4
хаха, думав, що ти збираєшся сказати "Спробуйте починати з bs=8388608та декрементувати кожен раз на крок"
липня

1
  • для кращої якості використання найбільший розмір оперативної пам'яті, який ви можете розмістити (буде надсилати менше дзвінків вводу / виводу в ОС)
  • для кращої точності та відновлення даних встановіть розмір блоку на вихідний розмір вхідного сектора

Оскільки DD копіює дані за допомогою параметра conv = noerror, синхронізація, будь-які помилки, з якими вона стикається, призводять до того, що залишок блоку буде замінено нульовими байтами. Більший розмір блоку скопіюється швидше, але щоразу, коли виникає помилка, решта блоку ігнорується.

джерело


1
Я думаю , що якщо є якась - або помилка запису , ви повинні замінити середу, не змінити розмір блоку ...
unfa
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.