Скільки місця потрібно для зберігання геному людини?

83

Я шукаю обсяг пам’яті в байтах (МБ, ГБ, ТБ тощо), необхідний для зберігання окремого геному людини. Я прочитав кілька статей у Вікіпедії про ДНК, хромосоми, пари основ, гени і маю деякі грубі припущення, але перед тим, як розказати щось, я хотів би побачити, як інші підійдуть до цього питання.

Альтернативним питанням було б, скільки атомів є в ДНК людини, але це не буде предметом для цього сайту.

Я розумію, що це буде наближення, тому я шукаю мінімальне значення, яке могло б зберігати ДНК будь-якої людини.

— Мілан Бабушков
джерело

Що стосується кількості атомів, то це залежить від складу. A і T - менші молекули, ніж G і C. Структура молекули - це яловичина, проте не її атомний склад, тому насправді це не дуже корисний розрахунок. (Для чого це коштує, наприклад, молекула ака дезоксіаденозіна є C10H13N5O3 так 31 атомів.)

— tripleee

Див. Також biostars.org/p/5514

— Žižka,

За винятком користувачів Slayton, Пола Амстронга та Раухена, всі інші відповіді, які даються, є по суті неправильними або далеко не повними. У відповідях користувач (не виконує) згадані методи стиснення або погано пояснюється. Дивіться мою відповідь, щоб пояснити 4-кратне зменшення геному, як це видно з багатьох відповідей.

— ZF007,

Я голосую за те, щоб закрити це питання як

— нетематичне,

67

Якщо ви довіряєте таким речам, ось що стверджує Вікіпедія (з http://en.wikipedia.org/wiki/Human_genome#Information_content ):

2,9 мільярда пар основ гаплоїдного генома людини відповідають максимум 725 мегабайтам даних, оскільки кожна пара основ може бути закодована 2 бітами. Оскільки окремі геноми змінюються між собою менш ніж на 1%, їх можна стиснути без втрат приблизно до 4 мегабайт.

— Олівер Чарлсворт
джерело

7

Щоб додати якийсь біологічний коментар, "гаплоїд" тут означає лише одну копію кожної хромосоми. Людський еталонний збір - гаплоїдний (і мозаїка з кількох людей). Фактичний окремий геном буде диплоїдним (по 2 копії кожної хромосоми, крім X та Y), але знову ж лише варіант між двома копіями на невеликому підмножині сайтів.

— Alex Stoddard

9

Подумав про це протягом доби, і зрозумів це: якщо ви зберігаєте якусь базову ДНК людини, будь-яку подальшу ДНК людини потрібно буде зберігати лише як різницю між нею та базовою справою. Для одностатевих прикладів ДНК на 99,9% однакова. А серед статей це приблизно 98,5%.

— Коста

3

Також варто пам’ятати, що не вся інформація, закодована в парах основ ДНК, також має епігенетичну інформацію.

— Аннарфіх

це має сенс. Основні пари в основному 4-х. 4-номірне число - 2 біти, тож подвійний розмір. отже, це 5,8 гігабіт або 5,8 / 8 гігабайт, що становить 0,725 ГБ або 725 МБ. "стиснення" можливе лише тому, що ви можете зберігати різницю проти нанесеного на карту генома замість того, щоб зберігати весь свій геном.

— Dave Cousineau

@Annarfych Це вкрай вводить в оману, оскільки епігенетична інформація за визначенням не успадковується (незважаючи на помилкові твердження про протилежне в популярній пресі). Інформація, що успадковується , зберігається лише в ДНК.

— Конрад Рудольф

25

Ви не зберігаєте всю ДНК в одному потоці, а більшу частину часу вона зберігає хромосомами.

Велика хромосома займає близько 300 МБ, а мала - близько 50 МБ.

Редагувати:

Я думаю, що перша причина, чому він не зберігається у 2 бітах на базову пару, полягає в тому, що це створить перешкоду для роботи з даними. Більшість людей не знали б, як це перетворити. І навіть коли буде дана програма для перетворення, багатьом людям у великих компаніях чи науково-дослідних інститутах не дозволяється / потрібно запитувати або не знають, як встановлювати програми ...

1 Гб пам’яті нічого не коштує, навіть завантаження 3 Гб займає всього 4 хвилини зі швидкістю 100 Мбіт / с, і більшість компаній мають більшу швидкість.

Інший момент полягає в тому, що дані не такі прості, як вам кажуть.

наприклад, метод секвенування, винайдений Craig_Venter, був великим проривом, але має свої негативні сторони. Він не міг розділити довгі ланцюжки однієї і тієї ж базової пари, тому не завжди на 100% зрозуміло, чи є 8 А або 9 А. Речі, про які ви повинні подбати пізніше ...

Інший приклад - метилювання ДНК, оскільки ви не можете зберігати цю інформацію у 2-бітному поданні.

— rauschen
джерело

2

+1 від мене. Однак я не маю уявлення, що означає "велика" чи "мала" хромосома?

— Milan Babuškov

1

Ці цифри не співпадають з тим, що говорить Вікіпедія (див. Таблицю на en.wikipedia.org/wiki/Human_genome#Information_content ); Я не кажу, що ви помиляєтесь, але чи можете ви пояснити невідповідність?

— Олівер Чарльзворт

Схоже, він цитує Mbp (мільйон пар основ, кожна пара основ - одна позиція в геномі), а не MB, який може приймати двобітове кодування кожної позиції

— Alex Stoddard

Деякі метилювання ДНК геному змінюються протягом усього життя організму. Включення даних метилювання ДНК для геному людини було б більше схоже на детальний знімок людини в конкретний момент, а не на загальний опис особи. Хоча в ОП не вказали, кого вони хочуть.

— cowlinator

12

В основному кожна пара основ бере 2 біти (ви можете використовувати 00, 01, 10, 11 для T, G, C та A). Оскільки в геномі людини налічується близько 2,9 мільярда пар основ, (2 * 2,9 мільярда) біт ~ = 691 мегабайт.

Я не фахівець, однак на сторінці " Геном людини " у Вікіпедії вказано таке:

Сировина MB:

Чоловічий (XY): 770 Мб
Жінки (XX): 756 Мб

Я не впевнений, звідки береться їх дисперсія, але я впевнений, ви можете це зрозуміти.

— Пол Армстронг
джерело

6

Реально, потрібно більше 2 бітів, оскільки існують інші бази, що зберігаються в інформації про послідовність ( Nнаприклад, там, де дані не піддаються відображенню і тому невідомі). Нуклеотидні коди IUPAC включають більше, ніж стандартні чотири, і це може збільшити накладні витрати на зберігання. ebi.ac.uk/2can/tutorials/aa.html

— Алекс Рейнольдс

@AlexReynolds непрацююче посилання: /

— o0 '.

2

@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html - краще посилання для цих кодів IUPAC. AIUI, певному "скануванню" генома потрібно більше 2 бітів через неточність, таким чином, Rабо для A, або для G, Nдля будь-якої бази, .для проміжку і т. Д. Якби ми могли ідеально читати геном, це було б лише 2 біти на базу .

— skierpage

1

Х-хромосома є єдиною для жінок. Самці мають додаткову кількість Y-хрому. кодуватися, що, як ми всі знаємо, відрізняється від X crhom.

— ZF007

Це також залежить від того, як ви визначаєте мегабайт : двійковий 2 ^ 20 або метричний 10 ^ 6 байт. Ви використовуєте двійковий файл, тому ваше число менше.

— il - ya

8

Так, мінімальна оперативна пам’ять, необхідна для цілої ДНК людини, становить близько 770 МБ. Однак двобітове представлення недоцільно. Важко переглядати або робити якісь обчислення на ньому. Тому деякі математики розробили більш ефективний спосіб зберігати ці послідовності баз ... і використовувати їх в алгоритмах пошуку та порівняння, таких як, наприклад, GARLI (www.bio.utexas.edu/faaching/antisense/garli/garli.html). Ця програма працює на моєму ПК прямо зараз, тому я можу сказати Вам ... що вона практично містить ДНК приблизно: 1 563 МБ .

— Філіп Овертон Співак Ридло
джерело

4

Більшість відповідей, крім користувачів slayton, rauchen, Paul Amstrong , помиляються, якщо мова йде про чисте зберігання один на один без техніки стиснення.

Геном людини з 3Gb нуклеотидів відповідає 3Gb байт, а не ~ 750MB. Побудований "гаплоїдний" геном згідно з NCBI наразі має розмір 3436687 кб або 3,436687 Гб. Перевірте тут самі.

Гаплоїд = одинарна копія хромосоми. Диплоїд = дві версії гаплоїду. Люди мають 22 унікальні хромосоми х 2 = 44. Чоловіча 23-та хромосома - це Х, У і становить 46 загалом. Самки 23-го хрому дорівнює X, X і, отже, становить 46.

Для чоловіків це буде 23 + 1 хромосома для зберігання даних на жорсткому диску, а для жінок - 23 хромосоми, пояснюючи невеликі відмінності, про які згадується час від часу у відповідях. Хром хрому. від самців дорівнює X хрому. від самок.

Таким чином, завантаження генома (23 + 1) в пам'ять здійснюється частинами через BLAST, використовуючи побудовані бази даних з файлів-файлів. Незалежно від версії на блискавці чи ні, нуклеотиди навряд чи можуть бути стиснені. Ще в перші дні одним із прийомів було замінити тандемні повтори (GACGACGAC на більш коротке кодування, наприклад, "3GAC"; від 9 байт до 4 байт). Причиною стала економія місця на жорсткому диску (площа пластин жорсткого диска 500bm-2GB з 7.200 об / хв та роз'ємами SCSI). Для послідовного пошуку це також було зроблено з запитом.

Якщо зберігання "кодованого нуклеотиду" буде 2-бітовим на букву, ви отримаєте за байт:

A = 00
C = 01
G = 10
T = 11

Тільки таким чином ви повністю отримуєте прибуток від позицій 1,2,3,4,5,6,7 та 8 за 1 байт кодування. Наприклад, комбінація 00.01.10.11 (як байт 00011011) тоді відповідатиме "ACTG" (і відображатиметься у текстовому файлі як невпізнаваний символ). Саме це відповідає за зменшення розміру файлу в чотири рази, як ми бачимо в інших відповідях. Таким чином, 3,4 Гб буде зменшено до 0,85917175 Гб ... ~ 860 Мб, включаючи необхідну програму перетворення (23 кб-4 Мб).

Але ... в біології ви хочете мати можливість читати щось, тому стиснення gzipped більш ніж достатньо. Розпакований, ви все ще можете прочитати його. Якщо було використано заповнення байтів, читати дані стає важче. Ось чому файли fasta - це фактично текстові файли.

— ZF007
джерело

1

Ви можете зберегти його як піктограму чи аудіозапис чи навіть відео - і для зберігання знадобиться терабати. Але це не обов’язково і мінімально , як просили.

— il - ya

@ il - ya ... Мені не вистачає того, що ви намагаєтесь зробити ... (мабуть, вам подобається пересуватися 250 км стрічки TDK .. вагою 600 кг і перемотування триває три години)?

— ZF007

1

Справа в тому, що 1 з 4 пар основ кодується двома бітами інформації. Саме стільки даних потрібно для кодування - з меншим кодувати не можна. Але ви можете вибрати інший спосіб кодування: ви можете використовувати цілий байт, або намалювати картинку, яка займає кілька кБ, або зробити аудіозапис. Все це все одно дозволило б зберігати необхідну інформацію, але це не було б необхідним або мінімальним кодуванням. Ви довільно наклали критерії читабельності (за допомогою стандартного текстового редактора), а це не те, що було задано в оригінальному питанні.

— il - ya

На жаль, це не так працює в біології. Метод спілкування між науковцями - це словесний, паперовий чи текстовий формат, який легко читати з екрана. У випадку, якщо у вас одна пара основ, достатньо буде заповнити байт нулями або одиницями. Однак є 4 основи (2 пари). У байті у вас є 4 позиції для базової пари та 4 позиції, які вказують тип базової пари. Стиснення даних працює, але люди потребують читабельності. Один піксель у коді RGB (3 значення та значення інтенсивності) використовує 32 байти. Лише 8 біт для листа. Таким чином, немає сенсу робити це Мона Ліза, так?

— ZF007,

6

ZF007, ти пропустив мою думку про мінімальність. Питання було: "Скільки пам’яті потрібно для зберігання ДНК людини?" з додатковими деталями "... Я шукаю мінімальне значення, яке могло б зберігати ДНК будь-якої людини". Ви намагаєтеся відповісти на інше запитання , а саме: "Скільки пам’яті потрібно для зберігання ДНК людини в зручній для читання формі, що використовується біологами для передачі даних про геном ?" якщо стиснути читабельні текстові дані за допомогою хорошого алгоритму стиснення, це призведе до того, що їх розмір буде значно нижчим за 2 біти на базову пару.

— il - ya

3

Геном людини містить 2,9 мільярда пар основ. Отже, якщо ви представили кожну базову пару як байт, то це зайняло б 2,9 мільярда байт або 2,9 ГБ. Можливо, ви можете придумати більш креативний спосіб зберігання пар основ, оскільки кожна пара основ вимагає лише 2 біти. Отже, ви могли б зберегти 4 пари базових пар на байт, зменшивши загальну суму менше ГБ.

— слайтон
джерело

біти ~ = байти. 2,9 мільярда біт - це близько 350 МБ

— SDGuero

4

@SDGuero, пари основ - це база 4, а не база 2, тому вам потрібно принаймні 2 біти для представлення пари основ.

— slayton

BS на бітовому жаргоні ... кожна база нуклеотидів має 1 символ і, отже, 1 байт, незалежно від таблиці перетворення символів (AscII, UTF-8 тощо); не включаючи 2-байтове азійське кодування.

— ZF007 01.03.18

1

@ zf007 Основні пари представлені ЖЕРТКАМИ a, c, g і t. Маркер - це не те саме, що символ. Немає жодної причини, щоб не можна було кодувати як 00, c як 01, g як 10 і t як 11

— MatBailie

1

Існує розбіжність; ви стверджуєте, що потрібен зручний для читання файл, якого немає в оригінальній публікації.

— MatBailie

3

Існує 4 нуклеотидні основи, з яких складається наша ДНК, це A, C, G, T, отже для кожної основи в ДНК займає 2 біти. Існує близько 2,9 мільярда баз, тобто близько 700 мегабайт. Дивна річ у тому, що це заповнило б звичайний компакт-диск даних! збіг?!?

— Метью Макгіннес
джерело

3

просто це теж зробив. необроблена послідовність ~ 700 МБ. якщо використовується фіксована послідовність зберігання або алгоритм зберігання фіксованої послідовності, - і той факт, що зміни складають 1%, я обчислюю ~ 120 МБ з перхромосомною послідовністю, встановленою зсувом elta. це все для зберігання.

— найкраща
джерело

1

Усі відповіді залишають факт, що nuDNA - не єдина ДНК, що визначає геном людини. mtDNA також передається у спадок, і вона вносить додаткові 16 500 пар основ в геном людини, приводячи його більше у відповідність із припущеннями Вікіпедії про 770 МБ для чоловіків та 756 МБ для жінок.

Це не означає, що геном людини можна легко зберегти на USB-накопичувачі на 4 Гб. Біти не представляють інформацію самі по собі, це комбінація бітів, що представляють інформацію. Отже, у випадку нуДНК та мтДНК біти кодуються (не плутати зі стиснутими), щоб представляти білки та ферменти, що саме по собі вимагає багато МБ необроблених даних, особливо з точки зору функціональності.

Їжа для роздумів: 80% людського геному називається "некодуючою" ДНК, тож ви насправді вірили, що ціле людське тіло та мозок можуть бути представлені лише в 151-154 МБ необроблених даних?

— ar18
джерело

-3

Існує лише 2 типи пар основ, цитозин може зв’язуватися лише з гуаніном, а аденин може зв’язуватися лише з тиміном, тому кожна пара основ може розглядатися як один біт. Це означає, що цілий ланцюг ДНК людини ~ 3 мільярди "бітів" буде приблизно близько 350 мегабайт.

— Linux Fanboy
джерело

2

У вас є 2 типи пар, і вони можуть бути в двох напрямках - тому вам потрібні два біти для кожної пари. Ось чому більшість публікацій вище пишуть ~ 700 Мб, а не 350 Мб.

— Трондстер

-3

Одна база - T, C, A, G (у системі числення бази-4: 0, 1, 2, 3) - кодується як два біти (не один), тому одна пара основ кодується чотирма бітами .

— Генрі К. О. Норман
джерело

2

За винятком того, що бази в парі доповнюють одна одну, тому не додайте ніякої інформації. Отже, і основа, і пара основ можуть кодуватися двома бітами.

— il - ya

Якщо у вас є "А", чим ви його доповнюєте? "AC" "AG" "AT" є дійсними. Так само, якщо у вас є "T", "TG" "TC" "TA" дійсні, то що ви робите?

— Роджер Йоханссон,

1

@RogerJohansson Ні, у ДНК дійсна лише пара основ “AT”. Так само для “TA”, “CG” та “GC”. Жодної іншої комбінації базової пари не існує.

— Конрад Рудольф

@KonradRudolph існує принаймні дев'ять пуринів ( en.wikipedia.org/wiki/Purine ). Всі вони можуть бути використані для заміни A або G. Це зробило б рішення питання OP більш складним. Я погоджуюся робити це простим і дотримуватися A, G, T і C.

— ZF007,

1

@ ZF007 Вони існують, але вони не зустрічаються стабільно в геномах людини, а тому не мають значення для зберігання геному. Їх біологічна значущість важлива лише в контексті мутацій (а там лише тимчасово) та модифікацій РНК. Зокрема (в контексті цієї відповіді), геномні дані не зберігаються як “пари основ”, вони зберігаються як послідовність окремих баз, і кожна позиція може бути закодована у два біти. Це не теоретично, так це робиться насправді (за винятком того, що для більшості додатків генетичні дані зберігаються в (gzipped) ASCII, а не стискаються в бітах).

— Конрад Рудольф