Як перевірити / довести, що дані завищені на нулі?


9

У мене є проблема, яка, на мою, повинна бути простою, але я не можу її цілком зрозуміти. Я дивлюсь на запилення насіння, у мене є рослини (n = 36), які цвітуть в гронах, я вибираю по 3 квіткових скупчення з кожної рослини і 6 насіннєвих стручків з кожного кластеру (18 насіннєвих стручків з кожної рослини). У стручці може бути від 0 до максимум 4 запилюваних насіння. Отже, дані рахуються з верхньою межею. Я знаходжу в середньому ~ 10% насіння запилюється, але десь від 1 до 30% на даній рослині, тому над розсіяними даними, і звичайно, на 3 рослинах є 4 відсутності копії кластера, так що не ідеально симетрично .

Я задаю питання, чи підтримують ці дані ідею, що ця рослина потребує запилювачів для насіння.

Я вважаю, що розподіл кількості насіння в стручці виглядає так, що існує більше 0 запилених насіннєвих стручків (6-9 стручків із 16) та більше 3 та 4 запилених насіннєвих стручків (по 2-4 на кожне), ніж слід очікувати, якщо насіння в популяції було просто випадковим чином запилюється. В основному, я вважаю, що це класичний приклад для нульових завищених даних, спочатку комаха або взагалі не відвідує квітку (один нульовий генератор), а якщо так, то запилює 0-4 насіння в іншому розповсюдженні. Альтернативною гіпотезою є те, що рослина частково самозаймається, і тоді слід було б очікувати, що кожне насіння матиме однакову ймовірність запилення (ці дані свідчать про приблизно 0,1 шанс, що означає 0,01 шанс на два насіння в одному стручку тощо) .

Але я просто хочу продемонструвати, що дані найкраще відповідають тому чи іншому розповсюдженню, а не дійсно робити ZIP або ZINB на даних. Я думаю, що будь-який метод, який я використовую, повинен враховувати фактичну кількість запилених насіння та кількість стручків, відібраних на кожній рослині. Найкраще, що я придумав, - це зробити якийсь ремінь для завантаження, де я просто випадковим чином присвоїти кількість запилених насіння для даної рослини на кількість насінних стручків, які я відібрала, зробіть це 10000 разів і подивіться, наскільки це можливо експериментальні дані для даної рослини вийшли з цього випадкового розподілу.

Я просто відчуваю, що в цьому є щось, що повинно бути набагато простіше, ніж груба сила завантаження, але після днів роздумів і пошуку я здаюся. Я не можу просто порівняти з розподілом Пуассона, тому що це верхня межа, це не двочлен, тому що мені потрібно генерувати очікуване розподіл якось першим. Будь-які думки? І я використовую R, тому поради (особливо про те, як найелегантніше генерувати 10 000 випадкових розподілів з n кульок на 16 коробок, у яких кожен може містити не більше 4 кульок), були б дуже вітаються.

ДОДАТИ 9.07.2012 По-перше, дякую всім вам за весь інтерес та допомогу. Читання відповідей змусило мене трохи переробити своє запитання. Я говорю, що у мене є одна гіпотеза (яку я зараз вважаю нульовою) про те, що насіння запилюються випадковим чином через стручки, і моя альтернативна гіпотеза полягає в тому, що насіннєвий стручок, що містить хоча б 1 запилене насіння, швидше за все мають кілька запилених насіння, ніж можна було б очікувати випадковим процесом. Я наводив реальні дані трьох рослин як приклади, щоб проілюструвати те, про що я говорю. Перший стовпець - це # запиленого насіння в стручку, другий стовпець - частота стручків із таким числом насіння.

рослина 1 (всього 3 насіння: 4% запилення)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

рослина 2 (всього 19 насінин: 26% запилення)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

рослина 3 (всього 16 насіння: 22% запилення)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

У рослині №1 було запилено лише 3 насіння у 18 стручках, один стручок мав одне насіння, а один стручок - два насіння. Розмірковуючи про процес додавання одного насіння до стручків навмання, перші два насіння виходять у свій власний стручок, але для 3-го насіння є 6 плям у стручках, у яких вже є одне насіння, але 64 плями в 16 стручках без насіння, тому найбільша ймовірність стручка з 2-ма насінням тут 6/64 = 0,094. Це трохи низько, але насправді не дуже, тому я б сказав, що ця рослина відповідає гіпотезі про випадкове запилення у всіх насінніх з можливістю ~ 4% запилення. Але рослина 2 для мене виглядає набагато екстремальніше: 4 стручки повністю запилені, але 12 стручків нічого. Я не зовсім впевнений, як безпосередньо обчислити шанси на це розподіл (звідси моя ідея завантаження), але я б здогадався, що шанси на це розподіл трапляються випадковим чином, якщо у кожного насіння є шанс ~ 25% запилення досить низький. Рослина №3. Я справді не маю уявлення. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що цей розподіл для цієї кількості насіння набагато частіше, ніж розподіл для рослини №2, і це може бути не малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що таке розподіл для цієї кількості насіння набагато ймовірніше, ніж розподіл для рослини №2, і це може бути малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що таке розподіл для цієї кількості насіння набагато ймовірніше, ніж розподіл для рослини №2, і це може бути малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах.

Врешті-решт я хочу написати заяву на кшталт «Розподіл запилених насінин у насінних стручках відповідає (або не відповідає) гіпотезі про те, що рослини не просто частково самосумісні, а потребують відвідування запилювача, щоб здійснити набір насіння. (результати статистичного тестування). " Це справді лише частина мого перегляду вперед, де я розповідаю про те, які експерименти слід проводити далі, тому я не відчайдушний, щоб це було те чи інше, але я хочу знати, якщо це можливо. Якщо я не можу зробити те, що намагаюся зробити з цими даними, я хотів би це знати!

Спочатку я задав досить широке запитання, тому що мені цікаво, чи є якісь хороші тести, щоб показати, чи слід в першу чергу дані переходити до нульової завищеної моделі. Усі приклади, які я бачив, здається, говорять: "дивіться, тут багато нулів, і для цього є розумне пояснення, тому давайте використаємо нульову завищену модель". Це я зараз роблю на цьому форумі, але я мав досвід своєї останньої глави, де я використовував Poisson glm для підрахунку даних, і один з моїх керівників сказав: «Ні, glms занадто складні та непотрібні, ці дані повинні перейдіть у таблицю надзвичайних ситуацій ", а потім надіслав мені дамп даних масивної таблиці непередбачених ситуацій, згенерований їх дорогим пакетом статистики, який дав однакові значення p для всіх моїх факторів + взаємодій до трьох значущих цифр !! Отже, я намагаюся робити чіткі та прості статистичні дані, і переконайтесь, що я їх досить добре розумію, щоб міцно захистити свій вибір, що, як мені здається, зараз не вдається зробити за нульовою надутою моделлю. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. що я не відчуваю, що зараз можу зробити для нульової завищеної моделі. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. що я не відчуваю, що зараз можу зробити для нульової завищеної моделі. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, виконую ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові завищені), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати.

Але я не хочу занадто сильно відволікатись від мого основного запитання, як я можу визначити, чи мої дані дійсно більше завищені, ніж очікувалося, від випадкового розподілу? У моєму випадку відповідь на це - те, що мене справді цікавить, і можлива користь для обґрунтування моделі є бонусом.

Ще раз дякую за весь ваш час та допомогу!

Ура, BWGIA


чому ви не хочете підходити до нульової надутої біноміальної моделі?
atiretoo - відновити моніку

чи виключна гіпотеза "часткового самоопрацювання" для гіпотези "запилювача"? Якщо так, то ваша 2-а модель буде просто двочленною моделлю з ймовірністю p та size = 4.
atiretoo - відновити моніку

Відповіді:


5

Мені це здається відносно простою (нелінійною) змішаною моделлю. У вас насінні стручки вкладені в кластери, вкладені в рослини, і ви можете помістити біноміальну модель із випадковими ефектами на кожному етапі:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

або з коваріатами, якщо у вас є. Якщо квітки самозапилюються, то, можливо, ви побачите м'які наслідки через природну мінливість того, наскільки життєздатні рослини самі по собі. Однак якщо більша частина варіабельності відповіді визначається мінливістю кластера, ви маєте більш сильні докази запилення комахами, які можуть відвідувати на рослині лише вибрані скупчення. В ідеалі, ви б хотіли непараметричного розподілу випадкових ефектів, а не Гаусса: точкова маса в нулі, без відвідування комах і точкова маса при позитивному значенні - це, по суті, думка, про яку думав Майкл Черник. Ви можете підходити до цього пакету GLLAMM Stata, я був би здивований, якби це було неможливо в Р.

Ймовірно, для чистого експерименту ви хочете, щоб рослини були всередині, або принаймні в місці, де немає доступу комах, і побачити, скільки насіння буде запилюватися. Це, ймовірно, відповість на всі ваші запитання більш методологічно жорстким способом.


Я спробую це спробувати, я думаю, це допоможе відповісти на мої власні запитання для себе, але не дуже впевнений, як це переконає інших. Ви помітили другу частину, я намагаюся подумати про те, як ці дані інформують про майбутній більш спрямований експеримент.
BWGIA

1

Мені здається, що це розподіл суміші для кожної окремої комахи. З імовірністю p комаха висаджується з імовірністю 1-p вона висаджується і поширює від 0 до 4 насіння. Але якщо ви не маєте інформації про те, чи комаха висаджується на рослині, ви не зможете розрізнити два способи отримати 0. Отже, ви можете дозволити p бути ймовірністю для 0, і тоді у вас є багаточленний розподіл (p1, p2, p3, p4) де pi - вірогідність i насіння, що дається комахою запилювача, що підлягає обмеженню p1 + p2 + p3 + p4 = 1. Модель має п'ять невідомих p, p1, p2, p3, p4 з обмеженням 0 = 0 для кожного i. Маючи достатньо даних, ви зможете оцінити ці параметри, можливо, використовуючи обмежений підхід максимальної ймовірності.


Я згоден, але питання полягає не в тому, щоб відповідати цій моделі, а генерувати передбачувані розподіли за двома різними біологічними гіпотезами. Можливо, відповідь полягає в тому, щоб відповідати ZIB та "якійсь іншій моделі", яка відповідає гіпотезі самодостатності, і порівняти їх.
atiretoo - відновити моніку

@atiretoo не дає вам модель розрахункового розподілу на кількість запилених насіння, яку ви могли б порівняти з вашим гіпотезованим розподілом?
Майкл Р. Черник

Погоджено - якщо у вас є правильні моделі для двох гіпотез.
atiretoo - відновити моніку

1

Це відповідь на останню частину вашого запитання, як швидко генерувати потрібні вам дані для гіпотези запилювача:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

Ви також можете використовувати rzibinom()в пакеті VGAM. Хоча я не впевнений, що ти хочеш з цим зробити. У вас є 2 вільних параметра, p1 і p2, які потрібно оцінити. Чому б не використати нульову завищену біноміальну модель, щоб оцінити їх за даними?

Ви повинні подивитися на пакет VGAM, який відповідає іншим моделям ZIB. Насправді ви можете отримати очікувану дистрибуцію для ZIB за допомогою функції VGAM dzibinom(), яку ви могли б використати для порівняння спостережуваного розподілу, якщо ви знаєте параметри відвідування та запилення. Знову ж таки, вам дійсно слід відповідати моделі ZIB.

Якщо ваша гіпотеза про часткове самовиключення стосується виключно запилення комах, то очікуване поширення просто двочленове, і ви можете оцінити параметри з двочленним сімейством glm або, можливо, glmm з рослинним ідентифікатором як випадковий ефект. Однак, якщо вони зможуть частково самостійно І отримати запилення комахами, тоді ви повернетесь до необхідності суміші двох біноміальних розподілів. У такому випадку я би дослідив, використовуючи OpenBUGS або JAGS, щоб відповідати моделі за допомогою MCMC.

Після того, як дві моделі підходять до ваших даних, ви порівнюєте моделі, щоб побачити, яка з них краще підходить, використовуючи AIC або BIC або якусь іншу метрику на ваш вибір.


Дякую за це atiretoo, але запуск цього коду, здається, генерує випадкове число насіння, а також випадкове розподіл. Я думав, що хотів би зафіксувати нумер насіння (скажімо, 19 насінин, див. Нижче), а потім подивіться, наскільки ймовірним був даний розподіл саме для цього точного нумера
BWGIA

Опс, вдалий пост занадто рано, і я мав на увазі "побачити вище", оскільки я додав інформацію до свого питання. Мене заінтригує ваш коментар щодо використання AIC для порівняння моделей, чи можу я це зробити для моделей (з однаковою змінною відповіді) з різними розподілами? Я подумав, що порівняння AIC є дійсним лише тоді, коли ви додаєте / відпускаєте умови до моделі, але із вказаним сімейством розподілу?
BWGIA

Ні, це ключова перевага AIC перед напр. Відсталим вибором. Поки дані однакові, ви можете порівнювати AIC між різними моделями, навіть якщо вони не вкладені. Ви повинні бути обережними, що програмне забезпечення обчислює ймовірність, не випускаючи константи, але в рамках однієї функції ви можете легко порівняти вкладені моделі.
atiretoo - відновити моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.