Об'єктивна оцінка матриці коваріації для множинні цензуровані дані


22

Хімічні аналізи зразків навколишнього середовища часто цензуруються нижче за межами звітності або різними межами виявлення / кількості. Останні можуть варіюватися, як правило, пропорційно значенням інших змінних. Наприклад, зразок з високою концентрацією одного з'єднання, можливо, повинен бути розведений для аналізу, в результаті чого пропорційна інфляція меж цензури для всіх інших сполук, що аналізуються одночасно в цьому зразку. Як інший приклад, іноді наявність сполуки може змінити реакцію тесту на інші сполуки ("матрична інтерференція"); коли це виявиться лабораторією, вона відповідно завищить свої межі звітності.

Я шукаю практичний спосіб оцінити всю дисперсійно-коваріаційну матрицю для таких наборів даних, особливо коли багато сполук зазнають понад 50% цензури, що часто буває. Загальноприйнята модель розподілу полягає в тому, що логарифми (справжніх) концентрацій мультинормально розподіляються, і це, здається, добре відповідає практиці, тому рішення цієї ситуації було б корисним.

(Під "практичним" я маю на увазі метод, який можна надійно кодувати принаймні в одному загальнодоступному програмному середовищі, такому як R, Python, SAS тощо) таким чином, що виконується досить швидко для підтримки ітеративних перерахунків, таких як багаторазова імпутація, і це досить стабільно [саме тому я не бажаю досліджувати реалізацію BUGS, хоча байєсівські рішення взагалі вітаються].)

Заздалегідь дякую за ваші думки з цього приводу.


Просто я правильно розумію питання цензури: Коли ви розбавляєте зразок, концентрація сполуки падає настільки низько, що випробувальний прилад не може виявити його присутність. Це точне переформулювання проблеми цензури?

Так, це правильно: розведення коефіцієнтом D збільшує всі межі виявлення також на коефіцієнт D. (Проблему матричних інтерференцій важче оцінити, а загальна ситуація надзвичайно складна. Для спрощення цього, звичайною моделлю є те, що набір тестів на одному зразку дає вектор (x [1], ..., x [k ]) , де х [г] або дійсні числа або інтервали чисел, як правило , з лівого кінцевою точкою в нескінченності; інтервал ідентифікує набір , в якому істинне значення приймається брехня).
whuber

Чому межі виявлення підвищуватимуться? Чи є вони не особливістю тестового приладу, а не тестування зразка?

Наприклад, припустимо, що межа виявлення приладу - 1 мкг на літр (мкг / л). Зразок розводиться 10: 1 (з великою точністю, тому ми не турбуємося про помилки тут), і прилад читає "<1"; тобто не визначається для розведеного зразка. Лабораторія стверджує, що концентрація у зразку менше 10 * 1 = 10 мкг / л і повідомляє про це як таке; тобто як "<10".
whuber

1
@amoeba Я бачу, я повинен був пояснити ці речі в самому запитанні. Відповіді: PCA; розмірність буде змінюватися від 3 до декількох сотень; розміри вибірки завжди сильно перевищують розмірність, але частота цензури може бути дуже високою (потрібна можливість обробляти до 50% і бажано до 95%).
whuber

Відповіді:


3

Я не повністю усвідомлював питання про матричну інтерференцію, але ось один підхід. Дозволяє:

- вектор, який представляє концентрацію всіх цільових сполук у нерозведеному зразку.Y

- відповідний вектор у розведеному зразку.Z

- коефіцієнт розведення, тобто зразок розбавляється d : 1.dd

Наша модель:

YN(μ,Σ)

Z=Yd+ϵ

де являє собою похибку через помилки розведення.ϵN(0,σ2 I)

Отже, випливає, що:

ZN(μd,Σ+σ2 I)

Позначимо вищерозподілений по f Z ( . ) .ZfZ(.)

Нехай - спостережувані концентрації, а τ являє собою поріг випробувального приладу, нижче якого він не може виявити з'єднання. Тоді для сполуки i t h маємо:Oτith

Oi=ZiI(Zi>τ)+0I(Ziτ)

Не втрачаючи загальності, нехай перші сполуки будуть такими, що вони знаходяться нижче порогу. Тоді функцію ймовірності можна записати так:k

L(O1,...Ok,Ok+1,...On|)=[i=1i=kPr(Ziτ)][i=k+1i=nf(Oi|)]

де

f(Oi|)=jifZ(Oi|)I(Oi>τ)

Оцінка - це питання використання або максимальної ймовірності, або байєсівських ідей. Я не впевнений, наскільки це можна сказати, але я сподіваюся, що він дає вам деякі ідеї.


Дуже дякую за цю думку. Дійсно, це стандартний і добре задокументований підхід до багаторазової цензури. Одна з труднощів полягає в його непромокальності: ці інтеграли, як відомо, важко обчислити. Тут також криється проблема моделювання: значення d зазвичай позитивно співвідноситься з Y , як випливає з першого абзацу мого опису.
whuber

2

Іншим більш обчислювально можливим варіантом було б пристосування матриці коваріації за моментом відповідності за допомогою моделі, яка отримала назву "діхомізований Гаусс", насправді просто модель копули Гаусса.

Нещодавній документ Macke et al 2010 описує процедуру закритої форми для встановлення цієї моделі, яка включає лише (цензуровану) емпіричну матрицю коваріації та обчислення деяких біваріантних нормальних ймовірностей. Ця ж група (лабораторія Бетге в MPI Tuebingen) також описала гібридні дискретні / безперервні гауссові моделі, які, мабуть, є те, чого ви тут хочете (тобто, оскільки гауссові РВ не є повністю «дихотомізованими» - лише ті, що знаходяться нижче порогового рівня).

Критично це не оцінка ML, і я боюся, що я не знаю, які його властивості зміщення.


@jp Дякую: я вивчу це. (Це може зайняти деякий час ...)
whuber

1

Скільки сполук у вашому зразку? (Або наскільки велика матриця коваріації, про яку йдеться?).

Алан Генц має дуже приємний код на різних мовах (R, Matlab, Fortran; див. Тут ) для обчислення інтегралів багатовимірної нормальної щільності над гіпер прямокутниками (тобто типи інтегралів, які потрібно оцінити ймовірність, як зазначає користувач28).

Я використовував ці функції ("ADAPT" і "QSIMVN") для інтегралів розміром приблизно 10-12, а кілька функцій на цій сторінці рекламують інтеграли (та пов'язані з ними похідні, які можуть знадобитися) для проблем розміром 100. Я не знаю, чи достатньо розмірів для ваших цілей, але якщо так, то це, ймовірно, може дозволяти вам знайти максимальну оцінку ймовірності за градієнтним підйомом.


О, вибачте - я тут новий і не помітив, як давно це було опубліковано - напевно, занадто пізно, щоб допомогти!
jpillow

@jp Це важлива проблема, що триває, тому проміжок часу між питанням і відповіддю мало наслідків. Дякую за відповідь!
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.