У мене є проблема, яка, на мою, повинна бути простою, але я не можу її цілком зрозуміти. Я дивлюсь на запилення насіння, у мене є рослини (n = 36), які цвітуть в гронах, я вибираю по 3 квіткових скупчення з кожної рослини і 6 насіннєвих стручків з кожного кластеру (18 насіннєвих стручків з кожної рослини). У стручці може бути від 0 до максимум 4 запилюваних насіння. Отже, дані рахуються з верхньою межею. Я знаходжу в середньому ~ 10% насіння запилюється, але десь від 1 до 30% на даній рослині, тому над розсіяними даними, і звичайно, на 3 рослинах є 4 відсутності копії кластера, так що не ідеально симетрично .
Я задаю питання, чи підтримують ці дані ідею, що ця рослина потребує запилювачів для насіння.
Я вважаю, що розподіл кількості насіння в стручці виглядає так, що існує більше 0 запилених насіннєвих стручків (6-9 стручків із 16) та більше 3 та 4 запилених насіннєвих стручків (по 2-4 на кожне), ніж слід очікувати, якщо насіння в популяції було просто випадковим чином запилюється. В основному, я вважаю, що це класичний приклад для нульових завищених даних, спочатку комаха або взагалі не відвідує квітку (один нульовий генератор), а якщо так, то запилює 0-4 насіння в іншому розповсюдженні. Альтернативною гіпотезою є те, що рослина частково самозаймається, і тоді слід було б очікувати, що кожне насіння матиме однакову ймовірність запилення (ці дані свідчать про приблизно 0,1 шанс, що означає 0,01 шанс на два насіння в одному стручку тощо) .
Але я просто хочу продемонструвати, що дані найкраще відповідають тому чи іншому розповсюдженню, а не дійсно робити ZIP або ZINB на даних. Я думаю, що будь-який метод, який я використовую, повинен враховувати фактичну кількість запилених насіння та кількість стручків, відібраних на кожній рослині. Найкраще, що я придумав, - це зробити якийсь ремінь для завантаження, де я просто випадковим чином присвоїти кількість запилених насіння для даної рослини на кількість насінних стручків, які я відібрала, зробіть це 10000 разів і подивіться, наскільки це можливо експериментальні дані для даної рослини вийшли з цього випадкового розподілу.
Я просто відчуваю, що в цьому є щось, що повинно бути набагато простіше, ніж груба сила завантаження, але після днів роздумів і пошуку я здаюся. Я не можу просто порівняти з розподілом Пуассона, тому що це верхня межа, це не двочлен, тому що мені потрібно генерувати очікуване розподіл якось першим. Будь-які думки? І я використовую R, тому поради (особливо про те, як найелегантніше генерувати 10 000 випадкових розподілів з n кульок на 16 коробок, у яких кожен може містити не більше 4 кульок), були б дуже вітаються.
ДОДАТИ 9.07.2012 По-перше, дякую всім вам за весь інтерес та допомогу. Читання відповідей змусило мене трохи переробити своє запитання. Я говорю, що у мене є одна гіпотеза (яку я зараз вважаю нульовою) про те, що насіння запилюються випадковим чином через стручки, і моя альтернативна гіпотеза полягає в тому, що насіннєвий стручок, що містить хоча б 1 запилене насіння, швидше за все мають кілька запилених насіння, ніж можна було б очікувати випадковим процесом. Я наводив реальні дані трьох рослин як приклади, щоб проілюструвати те, про що я говорю. Перший стовпець - це # запиленого насіння в стручку, другий стовпець - частота стручків із таким числом насіння.
рослина 1 (всього 3 насіння: 4% запилення)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
рослина 2 (всього 19 насінин: 26% запилення)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
рослина 3 (всього 16 насіння: 22% запилення)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
У рослині №1 було запилено лише 3 насіння у 18 стручках, один стручок мав одне насіння, а один стручок - два насіння. Розмірковуючи про процес додавання одного насіння до стручків навмання, перші два насіння виходять у свій власний стручок, але для 3-го насіння є 6 плям у стручках, у яких вже є одне насіння, але 64 плями в 16 стручках без насіння, тому найбільша ймовірність стручка з 2-ма насінням тут 6/64 = 0,094. Це трохи низько, але насправді не дуже, тому я б сказав, що ця рослина відповідає гіпотезі про випадкове запилення у всіх насінніх з можливістю ~ 4% запилення. Але рослина 2 для мене виглядає набагато екстремальніше: 4 стручки повністю запилені, але 12 стручків нічого. Я не зовсім впевнений, як безпосередньо обчислити шанси на це розподіл (звідси моя ідея завантаження), але я б здогадався, що шанси на це розподіл трапляються випадковим чином, якщо у кожного насіння є шанс ~ 25% запилення досить низький. Рослина №3. Я справді не маю уявлення. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що цей розподіл для цієї кількості насіння набагато частіше, ніж розподіл для рослини №2, і це може бути не малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що таке розподіл для цієї кількості насіння набагато ймовірніше, ніж розподіл для рослини №2, і це може бути малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах. Я думаю, що існує більше 0-х та 3-х, ніж слід очікувати випадкового розподілу, але я відчуваю, що таке розподіл для цієї кількості насіння набагато ймовірніше, ніж розподіл для рослини №2, і це може бути малоймовірно. Але, очевидно, я хочу знати це точно і по всіх рослинах.
Врешті-решт я хочу написати заяву на кшталт «Розподіл запилених насінин у насінних стручках відповідає (або не відповідає) гіпотезі про те, що рослини не просто частково самосумісні, а потребують відвідування запилювача, щоб здійснити набір насіння. (результати статистичного тестування). " Це справді лише частина мого перегляду вперед, де я розповідаю про те, які експерименти слід проводити далі, тому я не відчайдушний, щоб це було те чи інше, але я хочу знати, якщо це можливо. Якщо я не можу зробити те, що намагаюся зробити з цими даними, я хотів би це знати!
Спочатку я задав досить широке запитання, тому що мені цікаво, чи є якісь хороші тести, щоб показати, чи слід в першу чергу дані переходити до нульової завищеної моделі. Усі приклади, які я бачив, здається, говорять: "дивіться, тут багато нулів, і для цього є розумне пояснення, тому давайте використаємо нульову завищену модель". Це я зараз роблю на цьому форумі, але я мав досвід своєї останньої глави, де я використовував Poisson glm для підрахунку даних, і один з моїх керівників сказав: «Ні, glms занадто складні та непотрібні, ці дані повинні перейдіть у таблицю надзвичайних ситуацій ", а потім надіслав мені дамп даних масивної таблиці непередбачених ситуацій, згенерований їх дорогим пакетом статистики, який дав однакові значення p для всіх моїх факторів + взаємодій до трьох значущих цифр !! Отже, я намагаюся робити чіткі та прості статистичні дані, і переконайтесь, що я їх досить добре розумію, щоб міцно захистити свій вибір, що, як мені здається, зараз не вдається зробити за нульовою надутою моделлю. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. що я не відчуваю, що зараз можу зробити для нульової завищеної моделі. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. що я не відчуваю, що зараз можу зробити для нульової завищеної моделі. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, роблю ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати. Я використовував як квазібіноміальну (для цілих рослин для позбавлення від песудореплікатону), так і змішану модель для вищезазначених даних для порівняння методів лікування та відповіді на мої основні експериментальні запитання, або, здається, виконую ту саму роботу, але я також збираюся пограйте разом із ZINB сьогодні, щоб побачити, наскільки це добре. Я думаю, якщо я можу явно продемонструвати, що ці дані спочатку сильно кластеризовані (або нульові завищені), то я б забезпечив хорошу біологічну причину того, що виникає, я буду набагато краще налаштувати згодом витягнути ЗІНБ, ніж просто порівняйте одну з квазібіономічною / змішаною моделлю і аргументуйте, оскільки вона дає кращі результати, ось що я повинен використовувати.
Але я не хочу занадто сильно відволікатись від мого основного запитання, як я можу визначити, чи мої дані дійсно більше завищені, ніж очікувалося, від випадкового розподілу? У моєму випадку відповідь на це - те, що мене справді цікавить, і можлива користь для обґрунтування моделі є бонусом.
Ще раз дякую за весь ваш час та допомогу!
Ура, BWGIA