Більшість відповідей, крім користувачів slayton, rauchen, Paul Amstrong , помиляються, якщо мова йде про чисте зберігання один на один без техніки стиснення.
Геном людини з 3Gb нуклеотидів відповідає 3Gb байт, а не ~ 750MB. Побудований "гаплоїдний" геном згідно з NCBI наразі має розмір 3436687 кб або 3,436687 Гб. Перевірте тут самі.
Гаплоїд = одинарна копія хромосоми. Диплоїд = дві версії гаплоїду. Люди мають 22 унікальні хромосоми х 2 = 44. Чоловіча 23-та хромосома - це Х, У і становить 46 загалом. Самки 23-го хрому дорівнює X, X і, отже, становить 46.
Для чоловіків це буде 23 + 1 хромосома для зберігання даних на жорсткому диску, а для жінок - 23 хромосоми, пояснюючи невеликі відмінності, про які згадується час від часу у відповідях. Хром хрому. від самців дорівнює X хрому. від самок.
Таким чином, завантаження генома (23 + 1) в пам'ять здійснюється частинами через BLAST, використовуючи побудовані бази даних з файлів-файлів. Незалежно від версії на блискавці чи ні, нуклеотиди навряд чи можуть бути стиснені. Ще в перші дні одним із прийомів було замінити тандемні повтори (GACGACGAC на більш коротке кодування, наприклад, "3GAC"; від 9 байт до 4 байт). Причиною стала економія місця на жорсткому диску (площа пластин жорсткого диска 500bm-2GB з 7.200 об / хв та роз'ємами SCSI). Для послідовного пошуку це також було зроблено з запитом.
Якщо зберігання "кодованого нуклеотиду" буде 2-бітовим на букву, ви отримаєте за байт:
A = 00
C = 01
G = 10
T = 11
Тільки таким чином ви повністю отримуєте прибуток від позицій 1,2,3,4,5,6,7 та 8 за 1 байт кодування. Наприклад, комбінація 00.01.10.11 (як байт 00011011
) тоді відповідатиме "ACTG" (і відображатиметься у текстовому файлі як невпізнаваний символ). Саме це відповідає за зменшення розміру файлу в чотири рази, як ми бачимо в інших відповідях. Таким чином, 3,4 Гб буде зменшено до 0,85917175 Гб ... ~ 860 Мб, включаючи необхідну програму перетворення (23 кб-4 Мб).
Але ... в біології ви хочете мати можливість читати щось, тому стиснення gzipped більш ніж достатньо. Розпакований, ви все ще можете прочитати його. Якщо було використано заповнення байтів, читати дані стає важче. Ось чому файли fasta - це фактично текстові файли.