У дослідженнях асоціації, пов’язаних з геномом, які основні компоненти?


20

У дослідженнях асоціації, пов’язаних з геномом (GWAS):

  1. Які основні компоненти?
  2. Для чого вони використовуються?
  3. Як вони обчислюються?
  4. Чи можна проводити дослідження асоціації, пов’язане з геном, без використання PCA?

1
Перш ніж задавати ці питання, чи шукали ви на цьому сайті "PCA" чи досліджували тег "PCA"? Більшість ваших запитань вже там відповіли.
whuber

1
@whuber Я думаю, що ОП шукає використання PCA як способу обліку та коригування стратифікації населення при моделюванні заданого результату (суцільні дослідження фенотипу чи дослідження / випадку) та ДНК-маркери (SNP). Я дав тут посилання: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl

1
Звичайно, GWAS можна обійтися без основних компонентів. За відсутності стратифікації населення все, що вам потрібно, - це тисячі -тестів або тисячі тестів на чи-квадрат. т
onestop

@onestop (+1) Я вважаю, що ти відповів на друге запитання, яке я навіть не врахував у власній відповіді.
chl

@onestop, що робити, якщо тільки стратифікувати за статтю та расою? чи можете ви детальніше розглянути свою відповідь?
suprvisr

Відповіді:


27

У цьому конкретному контексті PCA використовується в основному для обліку специфічних для популяції варіацій розподілу алелей на SNP (або інших маркерах ДНК, хоча я лише знайомий зі випадком SNP), що досліджується. Така "підструктура населення" в основному виникає як наслідок різної частоти другорядних алелів у генетично віддалених предків (наприклад, японських та чорноафриканських чи європейсько-американських). Загальна ідея добре пояснена у структурі населення та ейгенаналізісі Паттерсон та ін. ( PLoS Genetics 2006, 2 (12)) або спеціальний випуск Lancet з генетичної епідеміології (2005, 366; більшість статей можна знайти в Інтернеті, починаючи з Cordell & Clayton, Genetic Association Studies ).

Побудова основних осей випливає з класичного підходу до PCA, який застосовується до масштабованої матриці (особин за SNP) спостережуваних генотипів (AA, AB, BB; скажімо, B є другорядним алелем у всіх випадках), за винятком того, що може бути застосована додаткова нормалізація для обліку дрейфу населення. Все припускає, що частоту другорядного алеля (приймаючи значення у {0,1,2}) можна вважати числовим, тобто ми працюємо за адитивною моделлю (також називається алельною дозуванням) або будь-якою еквівалентною, яка мала б сенс . Оскільки послідовні ортогональні ПК будуть враховувати максимальну дисперсію, це дає змогу виділити групи осіб, що різняться на рівні незначної частоти алелів. Програмне забезпечення, що використовується для цього, відоме як Eigenstrat . Він також доступний вegscore()функція з пакету GenABEL R (див. також GenABEL.org ). Варто зазначити, що були запропоновані інші методи виявлення підструктури населення, зокрема реконструкція кластерних моделей (див. Посилання в кінці). Додаткову інформацію можна отримати, переглянувши проект Hapmap та доступний підручник, що йде від проекту Bioconductor . (Шукайте в Інтернеті приємні підручники Вінса Дж. Кері або Девіда Клейтона).

±6Стратифікація населення в он-лайн допомозі.

Враховуючи, що ейгенаналіз дозволяє розкрити певну структуру на рівні індивідів, ми можемо використовувати цю інформацію, намагаючись пояснити спостережувані зміни в заданому фенотипі (або будь-який розподіл, який може бути визначений за бінарним критерієм, наприклад, хворобою чи контролем випадків ситуація). Зокрема, ми можемо підлаштувати наш аналіз із тими ПК (тобто, коефіцієнтами факторів осіб), як показано в Аналізі основних компонентів, виправлених для стратифікації в дослідженнях асоціації в геном , Прайсом та ін. ( Nature Genetics 2006, 38 (8)) та пізніших робіт (була чудова картина, що показує осі генетичної зміни в Європі в дзеркальній географії генів у межах Європи; Nature 2008; Фіг.1А відтворено нижче). Зауважте також, що іншим рішенням є проведення стратифікованого аналізу (включення етнічної приналежності до GLM) - такий доступний, наприклад, у пакеті snpMatrix .

гени дзеркальної географії в Європі

Список літератури

  1. Даніель Фалуш, Метью Стівенс та Джонатан К Притчард (2003). Визначення структури популяції за допомогою даних про мультилокусні генотипи: пов'язані локуси та корельовані частоти алелей . Генетика , 164 (4): 1567–1587.
  2. Б Девлін і К. Редер (1999). Геномний контроль для асоціаційних досліджень . Біометрія , 55 (4): 997–1004.
  3. JK Pritchard, M Stephens і P Donnelly (2000). Визначення структури популяції за допомогою даних про мультилокусний генотип . Генетика , 155 (2): 945–959.
  4. Ганг Чжен, Борис Фрейдлін, Чжаохай Лі та Джозеф Л Гаствірт (2005). Геномний контроль для досліджень асоціацій за різними генетичними моделями . Біометрія , 61 (1): 186–92.
  5. Чао Тянь, Пітер К. Грегерсен та Майкл Ф. Селдін1 (2008). Облік походження: дослідження підструктури населення та дослідження асоціацій у геномах . Молекулярна генетика людини , 17 (R2): R143-R150.
  6. Кай Ю, Структура населення та відбір контролю в дослідженнях асоціацій у геному .
  7. Елкес Л. Прайс, Ной А. Зайтлен, Девід Райх та Нік Паттерсон (2010). Нові підходи до стратифікації населення в дослідженнях асоціацій у геномах , Nature Reviews Genetics
  8. Чао Тіан та ін. (2009). Європейська генетична підструктура населення: подальше визначення інформаційних маркерів про походження для розрізнення серед різноманітних європейських етнічних груп , молекулярна медицина, 15 (11-12): 371–383.

Велике спасибі. Звичайно, після цього виникає більше запитань: 1) Що трапиться, якщо я ігнорую PCA і розшаровую свій зразок GWAS лише за GENDER / RACE / AGE та ігнорую PCA. Як це відобразить аналіз моєї асоціації та її результат? 2) Якщо я насправді хочу використовувати PCA, скільки SNPS у мене має бути генотипом, принаймні, щоб мати правдивий PCA? Досить 200? Чи потрібно їх рівномірно розподіляти по всіх хромосомах? 3) Які SNP використовуються в PCA? Це попередньо визначений набір чи якийсь?
suprvisr

@suprvisr Я можу відповісти прямо там або оновити свою відповідь, але я думаю, що краще задати нове запитання (що стосується ідеї "плюси і мінуси коригування за допомогою PCA проти стратифікації") і посилання на це, щоб люди може чітко здійснити необхідні зв’язки.
chl

@AndyFrost пропонує наступні цифри: goo.gl/jNXx0x, а зображення, на які ви можете посилатися, можуть знаходитись у goo.gl/TcK3g8 .
gung - Відновіть Моніку

@chl Чи не могли б ви пояснити, що ви маєте на увазі під цим: "Що зазвичай робиться в цьому випадку, це застосовувати PCA в ітераційному порядку і видаляти осіб, бали яких нижче ± 6 ± 6 SD на щонайменше одному з перших 20 основних сокири ». Я шукав відповідь на своє повідомлення тут: biostars.org/p/180336
MAPK
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.