Використання серединного лаку для вибору ознак


9

У статті, яку я читав нещодавно, в розділі аналізу даних я натрапив на наступний біт:

Далі таблицю даних розділили на тканини та клітинні лінії, а обидві підмножини були окремо відполіровані медіаною (рядки та стовпці були ітераційно відрегульовані, щоб мати медіану 0), перш ніж вони були знову об'єднані в одну таблицю. Ми нарешті відібрали для підмножини генів, експресія яких варіювала щонайменше в 4 рази від медіани у цьому зразку, встановленої щонайменше у трьох досліджуваних зразках

Я мушу сказати, що я не дуже дотримуюся міркувань тут. Мені було цікаво, чи можете ви допомогти мені відповісти на наступні два питання:

  1. Чому бажано / корисно коригувати медіану в наборах даних? Чому це слід робити окремо для різних типів зразків?

  2. Як це не змінювати експериментальні дані? Це відомий спосіб вибору декількох генів / змінних з великого набору даних, чи це скоріше adhoc?

Дякую,


Чи можете ви детально розглянути, які саме дані ви / вони переглядають? Я думаю, судячи з того, що ви цитували - для мене, метод здається дуже спеціальним.
suncoolsu

@suncoolsu: це дані про мікромасив, якщо ви знайомі з цією концепцією. Якщо ні, то, можливо, я міг би її сформулювати як; які гени експресуються, якою мірою в досліджуваних зразках. Ось краще пояснення: en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu Майже напевно дані аналізу експресії генів.
kriegar

Гаразд - я не був впевнений, послідовність наступного роду також стає популярною.
suncoolsu

Відповіді:


10

Tukey Median Polish, алгоритм використовується в нормалізації RMA мікромасив. Як вам відомо, дані мікромасив є досить галасливими, тому їм потрібен більш надійний спосіб оцінки інтенсивності зонду з урахуванням спостережень за всіма зондами та мікромасивами. Це типова модель, яка використовується для нормалізації інтенсивності зондів через масиви.

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

Де є трансформуються інтенсивність PM для зонда на масиву. - фоновий шум, і можна вважати, що він відповідає шуму в нормальній лінійній регресії. Однак, розподільне припущення про може бути обмежуючим, тому для використання оцінок для та ми використовуємо польський Tukey Median . Це надійний спосіб нормалізації для масивів, оскільки ми хочемо відокремити сигнал, інтенсивність за рахунок зонду, від ефекту масиву, . Ми можемо отримати сигнал, нормалізуючи ефект масивуYijlogithjthϵijϵμi^αj^ααj^для всіх масивів. Таким чином, нам залишаються лише ефекти зонду плюс деякий випадковий шум.

Посилання, яке я цитував раніше, використовує медіанський лак Тукі для оцінки диференційно експресованих генів або "цікавих" генів шляхом ранжирування за зондовим ефектом. Однак папір досить стара, і, ймовірно, в той час люди ще намагалися розібратися, як аналізувати дані мікромасиви. Непараметричний емпіричний документ Байєсових методів Ефрона вийшов у 2001 році, але, ймовірно, він не мав широкого застосування.

Однак зараз ми багато що розуміємо про мікромасиви (статистично) і майже впевнені в їх статистичному аналізі.

Дані Microarray досить галасливі, і RMA (в якій використовується медіанська польська мова) є одним з найпопулярніших методів нормалізації, можливо, через його простоту. Інші популярні та складні методи: GCRMA, VSN. Важливо нормалізувати, оскільки інтерес викликає ефект зондування, а не ефект масиву.

Як ви очікуєте, аналіз міг би отримати користь від деяких методів, які використовують переваги запозичення інформації в генах. Вони можуть включати байєсівські або емпіричні байєсівські методи. Можливо, папір, яку ви читаєте, є старої, і цих методів до цього часу не було.

Стосовно вашого другого пункту, так, вони, ймовірно, змінюють експериментальні дані. Але, я думаю, ця модифікація є кращою причиною, отже, виправданою. Причина буття

a) Дані мікроматриці досить галасливі. Коли інтерес викликає зондовий ефект, необхідна нормалізація даних за допомогою RMA, GCRMA, VSN тощо, і, можливо, користь будь-якої спеціальної структури даних є хорошою. Але я б уникав робити другу частину. Це головним чином тому, що якщо ми не знаємо структуру заздалегідь, краще не нав'язувати багато припущень.

б) Більшість експериментів з мікромасив є дослідницькою за своєю природою, тобто дослідники намагаються звузити до кількох наборів "цікавих" генів для подальшого аналізу чи експериментів. Якщо ці гени мають сильний сигнал, модифікації, як нормалізація, не повинні (істотно) впливати на кінцеві результати.

Тому зміни можуть бути виправданими. Але мушу зазначити, що передозування нормалізації може призвести до неправильних результатів.


+1 Це набагато краща відповідь, ніж моя спроба. Дякую.
kriegar

@posdef. Мені цікаво, чи був хтось статистик, який займався статистичним аналізом статті.
suncoolsu

дякую за вашу ретельну відповідь. Я вважаю, що факт, що це етап попередньої обробки, недостатньо пояснений (або просто вважається добре відомим) у статті. Якщо говорити про це, стаття опублікована у 2000 році (в «Природах»), тож я припускаю, що вони мали хоч якийсь статистичний аналіз на свої методи, якщо вони не брали участь у написанні. Але я, звичайно, можу лише міркувати .. :)
posdef

@posdef. Гаразд, круто відповідає на багато питань. 2000 рік - це час, коли люди ще розбиралися, як аналізувати дані мікромасив. Тоді FDR тоді не
любили

4

Деякі підказки ви можете знайти на сторінках 4 і 5 цього

Це метод обчислення залишків для моделі шляхом обчислення значень , та так що якщо відображаються в таблиці , медіана кожного рядка та кожного стовпця дорівнює 0.

yi,j=m+ai+bj+ei,j
maibjei,j

Більш звичайний підхід становить обчислення значень для , та так що середнє значення (або сума) кожного рядка та кожного стовпчика залишків дорівнює 0.maibj

Перевагою використання медіани є стійкість до невеликої кількості людей, що вижили; недолік полягає в тому, що ви викидаєте потенційно корисну інформацію, якщо немає сторонніх людей.


дякую за відповідь та посилання на посилання. Однак я не можу побачити, як ця модель стосується проблеми, яка існує. враховуючи, що дані є порівняльними значеннями виразів (читати: достаток), як можна визначитиai, bj і ei,j??
posdef

Якщо замість цього, ви берете модель достатку, як ni,j=niqj+ei,j або подібний log(ni,j)=log(n)+log(pi)+log(qj)+ei,jтоді ви можете зробити по суті те ж саме, зробивши медіану кожного ряду та кожного стовпця таблиці залишків рівним 0.
Генріх

@Henry Яка інформація "викидається" з медіаною польською мовою, коли немає "чужих" (і що саме ти маєш на увазі під "outlier")? Зрештою, ви можете реконструювати дані точно за допомогою великої медіани, медіанів рядків та стовпців та залишків, які є результатом медіани польської мови. Якщо ви маєте на увазі, що залишки відкидаються, то в чому сенс «середній польський» (еквівалентний OLS) у цьому відношенні?
whuber

@whuber: Залишки зберігаються в обох випадках. Середній лак враховує, наскільки віддалені спостереження від центру (у певному сенсі він врівноважує ваги залишків), тоді як медіанний лак дивиться лише на те, чи вони вище або нижче центру (у певному сенсі він врівноважує кількість залишків). Отже, інформація про вагу не використовується при використанні медіани як центру; це може бути добре, коли деякі значні ваги / залишки є настільки сумнівними, що результат для центру не можна довіряти, але передбачає використання інформації, якщо ні.
Генрі

@Henry Якщо ви можете відновити всі оригінальні дані з польської мови, то як "інформація" не "використовується"? До речі, середній лак не поводиться так, як ви, здається, описуєте: його залишки - це різниця у значеннях , а не в рангах даних.
whuber

3

Схоже, ви читаєте документ, який має аналіз генетичного диференціального вираження. Провівши декілька досліджень, пов’язаних з мікрочиповими мікросхемами, я можу поділитися тим, що мало знання (сподіваюсь правильно) щодо використання медіанного полірування.

Використання медіанного полірування під час етапу узагальнення попередньої обробки мікромасив є дещо стандартним способом позбавлення від даних, що випадають, лише з чіпами ідеального відповідника (принаймні для RMA).

Середній лак для даних мікромасив - це те, що у ваших рядках та стовпцях є ефект мікросхем та ефект зондування:

для кожного набору зондів (складається з n числа одного і того ж зонда) на x мікросхемах:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

де iv - значення інтенсивності

Через мінливість інтенсивності зонду майже весь аналіз даних мікромасив попередньо обробляється за допомогою певної корекції фону та нормалізації перед узагальненням.

Ось декілька посилань на потоки списку розсилки bioC, які розповідають про використання медіани польської та інших методів:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Дані з тканин та клітинних ліній зазвичай аналізуються окремо, тому що при культивуванні клітин їх експресійні профілі різко змінюються від зібраних зразків тканин. Не маючи більше паперу, важко сказати, чи підходила обробка зразків окремо чи ні.

Нормалізація, корекція фону та етапи узагальнення в конвеєрі аналізу - це всі модифікації експериментальних даних, але в такому режимі, який не обробляється, ефекти мікросхеми, пакетні ефекти, ефекти обробки затьмарять будь-який сигнал для аналізу. Ці експерименти з мікромасивкою генерують списки генів, які є кандидатами для подальших експериментів (qPCR тощо) для підтвердження результатів.

Що стосується спеціальних запитань, запитайте у 5 людей, яка різниця у складі необхідна для того, щоб ген вважався диференційовано вираженим, і ви отримаєте щонайменше 3 різних відповіді.


Дякую за оновлення вашої відповіді, я думаю, я зараз починаю розуміти. Отже, якщо я правильно розумію, медіанне полірування використовується для оцінки технічної мінливості щодо зонда та мікросхеми? ... перед експериментом підсумовується до 1 матриці, що містить значення експресії для генів за різних умов?
posdef

@posdef з мого розуміння так. Для кожного зонда на мікросхемі (зонди тієї ж послідовності) є зонди, розкидані по всьому. plmimagegallery.bmbolstad.com для деяких псевдозображень чіпів. Крім мінливості всередині одного чіпа, існує мінливість між мікросхемами. Через технічну мінливість алгоритми запускаються на вихідні значення інтенсивності для отримання єдиного "значення виразу" для зонда. Матриця цих значень потім підходить для визначення того, чи є гени різними експресіями в різних умовах.
kriegar
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.