Біологічне підґрунтя
З часом деякі види рослин прагнуть дублювати цілі геноми, отримуючи додаткову копію кожного гена. Через нестабільність цієї установки багато з цих генів потім видаляються, а геном переставляє себе і стабілізується, готовий повторно повторюватися. Ці події дублювання пов'язані з подіями видозміни та інвазії, і теорія полягає в тому, що дублювання допомагає рослинам швидше адаптуватися до свого нового середовища.
Люпін, рід квітучої рослини, вторгся в Анди в одній з найшвидших подій, що колись були виявлені, і більше того, здається, у своєму геномі є більше копій копій, ніж найрідніший рід - Baptisia.
А тепер математична проблема:
Геноми члена Lupinus та члена Baptisia були секвенсовані, що дало вихідні дані про близько 25 000 генів у кожного виду. Запитуючи до бази даних генів відомої функції, я тепер маю "найкращу здогадку" щодо того, які функції може виконувати цей ген - так, наприклад, Gene1298 може бути пов'язаний з "метаболізмом фруктози, реакцією на сольовий стрес, реакцією на холодний стрес". Хочу знати, чи відбулася подія дублювання між Баптизією та Лупінусом, чи відбулася втрата генів випадковим чином, чи швидше зберігаються або видаляються гени, що виконують певні функції.
У мене є сценарій, який виведе таблицю, як показана нижче. L * - це кількість всіх генів Люпіна, пов'язаних з функцією. L 1+ - це кількість генів люпину, пов'язаних з функцією, де існує принаймні одна копія копії. Я можу отримати його для отримання L 2+, L 3+ тощо, хоча L 1+ є набагато надійнішою групою, ніж L 2+ завдяки процесу секвенування.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Що я хотів би зробити, це перевірити, для кожної функції гена, чи є більше або менше генів з дублікатами, ніж можна було очікувати випадково, у Люпина та Баптизії, і чи відрізняється Лупін від Баптизії відношенням спостережуваного до очікуваного.
Найкраще, що я маю досі
Попередні дослідження різних видів використовували аналіз збагачення, з точним тестом Фішера та корекцією FDR для багаторазового відбору проб, щоб зробити тест на випадок надзвичайних ситуацій у кожному ряду.
Непогано було б покращити це; Я не впевнений, що це звучить як найкращий спосіб зробити це.
Glen_b запропонував використовувати GLM для аналізу даних; Я розігрувався з GLM в JMP8, що було цікаво, але я визнаю, що не дуже їх розумію.
Це сказав, що я зараз намагаюся використовувати R.
Для чого я це використовую?
Спочатку це повинно було бути частиною короткого дослідницького проекту, який я роблю в університеті, але тепер він охопив величезний проект анотації геному. Чому? Тому що біоінформатика класна. Вміти взяти рядок A, T, C і G і використовувати його для отримання інформації про події, що сталися мільйони років тому, дивовижно.
Потрібно сказати, що я не збираюся намагатися подати відповідь як на власну роботу. Я був би радий включити підтвердження в документ, якщо я використовую запропонований тут метод у поданій роботі.