Влада в протеоміці?


9

Грантів часто потребують аналізу потужності для підтримки запропонованого розміру вибірки. У протеоміці (і більшості -оміках) є 100/1000 характеристик / змінних, виміряних у 10-х зразках (можливо, 100-х, але малоймовірно). Також відомо, що деякі з цих вимірювальних одиниць (наприклад, спектральні підрахунки білків) зазвичай не розподіляються, і тому ми будемо використовувати непараметричний тест для аналізу. Я бачив, як визначається потужність розміру вибірки при одномірному вимірюванні та при проведенні t-тесту, але я не думаю, що це абсолютно правильно. Ще одна проблема, пов'язана зі спектральним підрахунком, полягає в тому, що кожна з 100 характеристик знаходиться в дуже різних масштабах із значно різними помилками (більші значення мають меншу кількість помилок). [Ця проблема добре описана в моделі зміни лімітного згину, Mutch et al., 2002 ]

Який був би відповідний спосіб визначити потужність запропонованого розміру вибірки, враховуючи деякі припущення FDR та прийнятну зміну складки? Використовуючи інструмент тут, я зміг визначити, враховуючи наступне:

  • 300 генів
  • 3 помилкових позитивів
  • 1,4-кратні відмінності
  • 0,8 бажаної потужності
  • 0,7 стдев

потрібен розмір вибірки на групу 49.

Це було зручно, оскільки я пропоную дизайн 50v50, знайте, що 1,4-кратна зміна досить прийнята, 1% FDR добре, і я, мабуть, виміряю 300 білків у цьому експерименті. Ця проблема потужності або обчислення розміру вибірки продовжуватиметься, тому було б непогано мати посилання на підхід.

EDIT: Я читав, де колега запропонував моделювати спектральні підрахунки від негативних біномінальних розподілів, використовуючи функцію ймовірності, за якою слід тест Вальда. В основному використовується попередні дані для отримання оцінок дисперсії білка, а потім обчислення виявлених змін складок між групами для кожного квантиля. Також є вхід FDR (альфа). Отже, з урахуванням потужності> 80% та встановленого розміру вибірки, вони можуть визначати помітні зміни складок для 25% найменшої дисперсії, 50% меншої дисперсії та 25% найвищої дисперсії. Проблема в тому, що я не знаю, як вони це зробили. Не впевнений, чи допоможе поділитися таким підходом комусь із можливою відповіддю.


Я знайшов деякі інші ресурси з цього приводу: Levin 2011 Dicker et al., 2010
Бен

1
Цей калькулятор MD Anderson здається мені надто оптимістичним. Скільки порівнянь зроблено? (Я занадто іржавий на мікроматрицях: 300 генів у дизайні 50v50 означає, що ви зробите скільки порівнянь ??) Коли ви встановили калькулятор FDR на 3 помилкових позитиви, ви говорите, що ви встановлюєте помилкову позитивну помилку, щоб тільки 3, як очікується, буде помилковим спрацьовуванням під нулем? Це занадто суворо для більш ніж 60 порівнянь.
АдамО

1
Я можу показати вам, як це було б зроблено в R, але мені просто потрібні деякі відомості з біології.
АдамО

Відповіді:


1

У додатках (особливо етичних додатках, де потрібно провести енергетичне дослідження) мені подобається використовувати це посилання [Wang and Chen 2004], оскільки це добре пояснює концепцію обчислення потужності для даних з високою пропускною здатністю (незалежно від даних, які насправді є) .

По суті, крім звичайних параметрів (α, β, N, розмір ефекту), ви використовуєте два додаткові параметри, λ і η. Останній η - це припущена кількість дійсно змінених генів, а λ - частка справді змінених генів, яку ви хочете мати можливість виявити. Досить просто розширити будь-які відомі розрахунки потужності до даних з високою пропускною здатністю за допомогою цього підходу.

Ван, Сью-Джейн та Джеймс Дж. Чен. "Розмір вибірки для ідентифікації диференційно експресованих генів в експериментах з мікромасивом". Журнал обчислювальної біології 11.4 (2004): 714-726.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.