Аналіз збагачення за рівнем дублювання генів

11

Біологічне підґрунтя

З часом деякі види рослин прагнуть дублювати цілі геноми, отримуючи додаткову копію кожного гена. Через нестабільність цієї установки багато з цих генів потім видаляються, а геном переставляє себе і стабілізується, готовий повторно повторюватися. Ці події дублювання пов'язані з подіями видозміни та інвазії, і теорія полягає в тому, що дублювання допомагає рослинам швидше адаптуватися до свого нового середовища.

Люпін, рід квітучої рослини, вторгся в Анди в одній з найшвидших подій, що колись були виявлені, і більше того, здається, у своєму геномі є більше копій копій, ніж найрідніший рід - Baptisia.

А тепер математична проблема:

Геноми члена Lupinus та члена Baptisia були секвенсовані, що дало вихідні дані про близько 25 000 генів у кожного виду. Запитуючи до бази даних генів відомої функції, я тепер маю "найкращу здогадку" щодо того, які функції може виконувати цей ген - так, наприклад, Gene1298 може бути пов'язаний з "метаболізмом фруктози, реакцією на сольовий стрес, реакцією на холодний стрес". Хочу знати, чи відбулася подія дублювання між Баптизією та Лупінусом, чи відбулася втрата генів випадковим чином, чи швидше зберігаються або видаляються гени, що виконують певні функції.

У мене є сценарій, який виведе таблицю, як показана нижче. L * - це кількість всіх генів Люпіна, пов'язаних з функцією. L 1+ - це кількість генів люпину, пов'язаних з функцією, де існує принаймні одна копія копії. Я можу отримати його для отримання L 2+, L 3+ тощо, хоча L 1+ є набагато надійнішою групою, ніж L 2+ завдяки процесу секвенування.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Що я хотів би зробити, це перевірити, для кожної функції гена, чи є більше або менше генів з дублікатами, ніж можна було очікувати випадково, у Люпина та Баптизії, і чи відрізняється Лупін від Баптизії відношенням спостережуваного до очікуваного.

Найкраще, що я маю досі

Попередні дослідження різних видів використовували аналіз збагачення, з точним тестом Фішера та корекцією FDR для багаторазового відбору проб, щоб зробити тест на випадок надзвичайних ситуацій у кожному ряду.

Непогано було б покращити це; Я не впевнений, що це звучить як найкращий спосіб зробити це.

Glen_b запропонував використовувати GLM для аналізу даних; Я розігрувався з GLM в JMP8, що було цікаво, але я визнаю, що не дуже їх розумію.

Це сказав, що я зараз намагаюся використовувати R.

Для чого я це використовую?

Спочатку це повинно було бути частиною короткого дослідницького проекту, який я роблю в університеті, але тепер він охопив величезний проект анотації геному. Чому? Тому що біоінформатика класна. Вміти взяти рядок A, T, C і G і використовувати його для отримання інформації про події, що сталися мільйони років тому, дивовижно.

Потрібно сказати, що я не збираюся намагатися подати відповідь як на власну роботу. Я був би радий включити підтвердження в документ, якщо я використовую запропонований тут метод у поданій роботі.

— TDN169
джерело

1

Зверніть увагу на проблему, про яку я згадував у своїй попередній відповіді на ваше інше питання - про тестування лише однієї змінної, коли є інші важливі змінні (я вказав на статтю Вікіпедії про Парадокс Сімпсона) - точний тест Фішера цього не обійде.

— Glen_b -Встановіть Моніку

Біоінформатика це круто !! Ласкаво просимо на сайт!

— Кайл.

Я незабаром повернуся і дам більш обширні відповіді, але відповідні функції в R, на які слід звернути увагу, будуть loglin, loglm (в пакеті MASS, який поставляється з R, але не встановлений за замовчуванням) і сам glm. Розуміння цих моделей матиме велику схожість із розумінням множинної регресії та ANOVA - за винятком того, що розподіли не є нормальними, а журнали значень - це те, що моделі лінійні.

— Glen_b -Встановити Моніку

1

Хоча я згоден, що тест Фішера (або щось подібне) може бути найбільш природним підходом тут, як щодо цього:

Для кожного унікального гена ви визначаєте різницю в кількості дублювань у L та B
Упорядкуйте гени за цією різницею. Тепер гени, які показують більшість відмінностей між видами, опиняться у верхній частині списку.
Застосуйте тест збагачення набору генів до упорядкованого списку генів. Наприклад, ви можете скористатися модифікованим методом Фішера з мого пакета tmod , для якого вам доведеться визначити ваші набори генів (він повинен бути досить простим). Зауважте, що метод Фішера не пов'язаний з тестом Фішера.

Модифікований тест Фішера (його називали CERNO авторами, які вперше описали його в цьому контексті) приймає будь-який упорядкований список генів як вхідний, якщо ви можете згрупувати їх у деяких корисних категоріях.

Перевага такого підходу полягає в тому, що крім p-значення, ви можете легко обчислити розмір ефекту від збагачення та візуалізувати його (наприклад, як крива ROC над упорядкованим списком генів). Це дає вам набагато краще уявлення про те, наскільки справді ви спостерігаєте, має значення для біології, яку ви вивчаєте.

— Січень
джерело

0

Як ви кажете, ви задаєте два чіткі питання.

Питання 1 "- відношення L * / L1 +, що відрізняється від B * / B1 + для заданої функції гена"

на це найкраще відповісти точним тестом Фішера, використовуючи дані в рядку, як ви знайшли раніше.

Питання 2 "- співвідношення: гени, де є одна копія / гени, де є більше однієї копії, різні між функціями гена?"

Я думаю, що це також може бути найкращим чином відповісти точним тестом Фішера. Ви протестуєте співвідношення L * / L1 + для функції гена 1 проти L * / L1 + для функції гена 2. Потім функція гена 1 Vs генна функція 3 тощо.

Жоден із цих наборів питань не визначається тим, чи підтримуються вони / видаляються швидше, ніж очікувалося, лише випадково, лише чи видаляються вони / підтримуються зі швидкістю, відмінною одна від одної. Щоб знати, чи видаляли вони / підтримували зі швидкістю, відмінною від випадкової, вам потрібно знати співвідношення одиничної копії / множинної копії для багатьох регіонів ДНК, на які впливає лише випадково. Якщо ви могли б знайти такі регіони, ви отримаєте "Групу функцій", де функція - "Жодна". Потім ви порівняєте це з іншими групами функцій генів так само, як я описав у питанні 2.

— Філ А
джерело