Tukey Median Polish, алгоритм використовується в нормалізації RMA мікромасив. Як вам відомо, дані мікромасив є досить галасливими, тому їм потрібен більш надійний спосіб оцінки інтенсивності зонду з урахуванням спостережень за всіма зондами та мікромасивами. Це типова модель, яка використовується для нормалізації інтенсивності зондів через масиви.
Yi j=мкi+αj+ϵi j
i = 1 , … , Ij = 1 , … , J
Де є трансформуються інтенсивність PM для зонда на масиву. - фоновий шум, і можна вважати, що він відповідає шуму в нормальній лінійній регресії. Однак, розподільне припущення про може бути обмежуючим, тому для використання оцінок для та ми використовуємо польський Tukey Median . Це надійний спосіб нормалізації для масивів, оскільки ми хочемо відокремити сигнал, інтенсивність за рахунок зонду, від ефекту масиву, . Ми можемо отримати сигнал, нормалізуючи ефект масивуYi jл о гiт годjт годϵi jϵмкi^αj^ααj^для всіх масивів. Таким чином, нам залишаються лише ефекти зонду плюс деякий випадковий шум.
Посилання, яке я цитував раніше, використовує медіанський лак Тукі для оцінки диференційно експресованих генів або "цікавих" генів шляхом ранжирування за зондовим ефектом. Однак папір досить стара, і, ймовірно, в той час люди ще намагалися розібратися, як аналізувати дані мікромасиви. Непараметричний емпіричний документ Байєсових методів Ефрона вийшов у 2001 році, але, ймовірно, він не мав широкого застосування.
Однак зараз ми багато що розуміємо про мікромасиви (статистично) і майже впевнені в їх статистичному аналізі.
Дані Microarray досить галасливі, і RMA (в якій використовується медіанська польська мова) є одним з найпопулярніших методів нормалізації, можливо, через його простоту. Інші популярні та складні методи: GCRMA, VSN. Важливо нормалізувати, оскільки інтерес викликає ефект зондування, а не ефект масиву.
Як ви очікуєте, аналіз міг би отримати користь від деяких методів, які використовують переваги запозичення інформації в генах. Вони можуть включати байєсівські або емпіричні байєсівські методи. Можливо, папір, яку ви читаєте, є старої, і цих методів до цього часу не було.
Стосовно вашого другого пункту, так, вони, ймовірно, змінюють експериментальні дані. Але, я думаю, ця модифікація є кращою причиною, отже, виправданою. Причина буття
a) Дані мікроматриці досить галасливі. Коли інтерес викликає зондовий ефект, необхідна нормалізація даних за допомогою RMA, GCRMA, VSN тощо, і, можливо, користь будь-якої спеціальної структури даних є хорошою. Але я б уникав робити другу частину. Це головним чином тому, що якщо ми не знаємо структуру заздалегідь, краще не нав'язувати багато припущень.
б) Більшість експериментів з мікромасив є дослідницькою за своєю природою, тобто дослідники намагаються звузити до кількох наборів "цікавих" генів для подальшого аналізу чи експериментів. Якщо ці гени мають сильний сигнал, модифікації, як нормалізація, не повинні (істотно) впливати на кінцеві результати.
Тому зміни можуть бути виправданими. Але мушу зазначити, що передозування нормалізації може призвести до неправильних результатів.