У мене є питання про правильний розподіл, який потрібно використовувати для створення моделі з моїми даними. Я провів лісову інвентаризацію на 50 ділянок, кожна ділянка розміром 20м × 50м. Для кожної ділянки я оцінив відсоток козирка дерев, що затінює землю. Кожна ділянка має одне значення, у відсотках, для покриття навісом. Відсотки коливаються від 0 до 0,95. Я роблю модель кришки шару деревного відсотка ( змінна Y ) з матрицею незалежних X змінних на основі супутникових знімків та даних про довкілля.
Я не впевнений, чи слід використовувати біноміальне розподіл, оскільки біноміальна випадкова величина - це сума n незалежних випробувань (тобто випадкових змінних Бернуллі). Значення відсотків не є сумою випробувань; вони є фактичними відсотками. Чи варто використовувати гамму, хоча вона не має верхньої межі? Чи слід перетворювати відсотки на цілі числа і використовувати Пуассон як підрахунки? Чи варто просто дотримуватися Гауссана? Я не знайшов багатьох прикладів в літературі чи в підручниках, які намагаються моделювати відсотки таким чином. Будь-які підказки чи розуміння цінуються.
Дякую за відповіді. Насправді бета-розподіл - це саме те, що мені потрібно, і це ретельно обговорюється в цій статті:
Ескельсон, Б.Н., Мадсен, Л., Агар, Ж.К. і Темесген, Х. (2011). Оцінка підводного вегетаційного покриву ріпарів за допомогою бета-регресії та моделей копули. Лісова наука, 57 (3), 212-221.
Ці автори використовують пакет бетарегів у R від Cribari-Neto та Zeileis.
У наступній статті йдеться про хороший спосіб перетворення змінної відповіді, розподіленої бета-версією, коли вона включає значення 0 та / або 1 в діапазоні відсотків:
- Смітсон, М. та Дж. Веркуйлен, 2006. Кращий вичавлювач лимона? Максимально-ймовірна регресія з бета-розподіленими залежними змінними , Психологічні методи, 11 (1): 54–71.