У дослідженнях асоціації, пов’язаних з геномом (GWAS):
- Які основні компоненти?
- Для чого вони використовуються?
- Як вони обчислюються?
- Чи можна проводити дослідження асоціації, пов’язане з геном, без використання PCA?
У дослідженнях асоціації, пов’язаних з геномом (GWAS):
Відповіді:
У цьому конкретному контексті PCA використовується в основному для обліку специфічних для популяції варіацій розподілу алелей на SNP (або інших маркерах ДНК, хоча я лише знайомий зі випадком SNP), що досліджується. Така "підструктура населення" в основному виникає як наслідок різної частоти другорядних алелів у генетично віддалених предків (наприклад, японських та чорноафриканських чи європейсько-американських). Загальна ідея добре пояснена у структурі населення та ейгенаналізісі Паттерсон та ін. ( PLoS Genetics 2006, 2 (12)) або спеціальний випуск Lancet з генетичної епідеміології (2005, 366; більшість статей можна знайти в Інтернеті, починаючи з Cordell & Clayton, Genetic Association Studies ).
Побудова основних осей випливає з класичного підходу до PCA, який застосовується до масштабованої матриці (особин за SNP) спостережуваних генотипів (AA, AB, BB; скажімо, B є другорядним алелем у всіх випадках), за винятком того, що може бути застосована додаткова нормалізація для обліку дрейфу населення. Все припускає, що частоту другорядного алеля (приймаючи значення у {0,1,2}) можна вважати числовим, тобто ми працюємо за адитивною моделлю (також називається алельною дозуванням) або будь-якою еквівалентною, яка мала б сенс . Оскільки послідовні ортогональні ПК будуть враховувати максимальну дисперсію, це дає змогу виділити групи осіб, що різняться на рівні незначної частоти алелів. Програмне забезпечення, що використовується для цього, відоме як Eigenstrat . Він також доступний вegscore()
функція з пакету GenABEL R (див. також GenABEL.org ). Варто зазначити, що були запропоновані інші методи виявлення підструктури населення, зокрема реконструкція кластерних моделей (див. Посилання в кінці). Додаткову інформацію можна отримати, переглянувши проект Hapmap та доступний підручник, що йде від проекту Bioconductor . (Шукайте в Інтернеті приємні підручники Вінса Дж. Кері або Девіда Клейтона).
Стратифікація населення в он-лайн допомозі.
Враховуючи, що ейгенаналіз дозволяє розкрити певну структуру на рівні індивідів, ми можемо використовувати цю інформацію, намагаючись пояснити спостережувані зміни в заданому фенотипі (або будь-який розподіл, який може бути визначений за бінарним критерієм, наприклад, хворобою чи контролем випадків ситуація). Зокрема, ми можемо підлаштувати наш аналіз із тими ПК (тобто, коефіцієнтами факторів осіб), як показано в Аналізі основних компонентів, виправлених для стратифікації в дослідженнях асоціації в геном , Прайсом та ін. ( Nature Genetics 2006, 38 (8)) та пізніших робіт (була чудова картина, що показує осі генетичної зміни в Європі в дзеркальній географії генів у межах Європи; Nature 2008; Фіг.1А відтворено нижче). Зауважте також, що іншим рішенням є проведення стратифікованого аналізу (включення етнічної приналежності до GLM) - такий доступний, наприклад, у пакеті snpMatrix .
Список літератури