Правильне використання та інтерпретація гамма-моделей із завищеною нулем


11

Передумови: Я зараз є біостатистом, який веде боротьбу з набором частот клітинної експресії. Дослідження піддало певні пептиди безліч клітин, зібраних у групи від різних донорів. Клітини або виражають певні біомарки у відповідь, або їх немає. Потім ставки відповідей реєструються для кожної групи донорів. Частота відповідей (виражена у відсотках) є результатом інтересу, а вплив пептидів є прогнозом.

Зауважте, що спостереження групуються у донорів.

Оскільки у мене є лише підсумкові дані, я ставлюсь до донорських показників відповіді як постійні дані (принаймні поки що).

Ускладнення виникає через те, що я маю багато нулів у своїх даних. Занадто багато, щоб їх ігнорувати. Я розглядаю нульову завищену гамма-модель, щоб вирішити той факт, що я перекосив безперервні дані в поєднанні з надмірною кількістю нулів. Я також розглядав модель Тобіта, але це здається неповноцінним, оскільки передбачає цензуру на нижній межі, на відміну від справжніх нулів (економетрики можуть сказати, що відмінність є суперечливою).

Питання: Взагалі кажучи, коли доцільно використовувати гамма-модель із завищеною нулем? Тобто, які припущення? І як можна інтерпретувати свої умовиводи? Буду вдячний за посилання на документи, які обговорюють це, якщо у вас є такі.

Я знайшов посилання на SAS-L, в якому Дейл МакЛерран надає код NLMIXED для гамма-моделі з завищеною нулем, тому, здається, це можливо. Тим не менш, я б не хотів знімати сліпо.

Відповіді:


5

По-перше, ви не бачите справжніх нулів у даних виразів. Ваш біолог каже, що, як це роблять усі біологи, але коли біолог каже "це нуль", це насправді означає "це нижче мого порогу виявлення, тому його не існує". Це мовне питання через відсутність математичної витонченості в цій галузі. Я виступаю тут із особистого досвіду.

Пояснення нульової завищеної гамми у наданому вами посиланні є відмінним. Фізичний процес, що веде до ваших даних, це, якщо я це розумію, вибирається донор, потім обробляється певним пептидом, і відповідь вимірюється з клітин цього донора. Тут є кілька шарів. Один - це загальна сила реакції донора, яка подається на рівень експресії кожної конкретної клітини, що вимірюється. Якщо ви інтерпретуєте змінну Бернуллі в нульовій завищеній гаммі як "реакцію донора досить сильна для її вимірювання", то це може бути добре. Зауважте лише, що в такому випадку ви набираєте шум експресії окремих клітин у зв'язку з різними реакціями донорів. Оскільки шум, що виражається в одній комірці, приблизно розподілений гаммою,

Якщо додаткова зміна від донорів проти клітин не призведе до того, що вам підходить Gamma, і ви просто намагаєтеся отримати експресію проти застосованого пептиду, то немає жодної причини, чому це не повинно бути добре.

Якщо більш детальний аналіз на замовлення, я рекомендую побудувати власну ієрархічну модель, щоб відповідати процесу, що веде до ваших вимірювань.


3

Я знайшов рішення, яке вважаю досить елегантним. У літературі є відмінна стаття під назвою "Аналіз даних повторних заходів із збиттям у нуль", яка демонструє нульову завищену лонормальну модель корельованих даних. Автори надають макрос SAS, який базується на PROC NLMIXED і досить простий у реалізації. Хороша новина полягає в тому, що це може спрощуватись до випадків без кластерних спостережень, опускаючи repeatedтвердження в макрос. Погана новина полягає в тому, що NLMIXED ще не має багатьох кореляційних структур, які нам часто потрібні, таких як авторегресивна.

Макрос названий MIXCORR і має дуже корисну сторінку Wiki, яку ви можете знайти тут . Сам макрос можна завантажити тут .

Я настійно рекомендую всі ці посилання. Сподіваюся, ви знайдете їх корисними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.