Розподіл за процентними даними


11

У мене є питання про правильний розподіл, який потрібно використовувати для створення моделі з моїми даними. Я провів лісову інвентаризацію на 50 ділянок, кожна ділянка розміром 20м × 50м. Для кожної ділянки я оцінив відсоток козирка дерев, що затінює землю. Кожна ділянка має одне значення, у відсотках, для покриття навісом. Відсотки коливаються від 0 до 0,95. Я роблю модель кришки шару деревного відсотка ( змінна Y ) з матрицею незалежних X змінних на основі супутникових знімків та даних про довкілля.

Я не впевнений, чи слід використовувати біноміальне розподіл, оскільки біноміальна випадкова величина - це сума n незалежних випробувань (тобто випадкових змінних Бернуллі). Значення відсотків не є сумою випробувань; вони є фактичними відсотками. Чи варто використовувати гамму, хоча вона не має верхньої межі? Чи слід перетворювати відсотки на цілі числа і використовувати Пуассон як підрахунки? Чи варто просто дотримуватися Гауссана? Я не знайшов багатьох прикладів в літературі чи в підручниках, які намагаються моделювати відсотки таким чином. Будь-які підказки чи розуміння цінуються.


Дякую за відповіді. Насправді бета-розподіл - це саме те, що мені потрібно, і це ретельно обговорюється в цій статті:

У наступній статті йдеться про хороший спосіб перетворення змінної відповіді, розподіленої бета-версією, коли вона включає значення 0 та / або 1 в діапазоні відсотків:


2
Чи задумувались ви про те, щоб використовувати дробовий логіт або бета-завищену бета-версію ?
Мастеров Дмитро Васильович

2
Дякую за відповіді. Насправді бета-розподіл - це саме те, що мені потрібно, і це ретельно обговорюється в цій статті: Ескельсон, Б.Н., Мадсен, Л., Агар, JC, & Temesgen, H. (2011). Оцінка підводного вегетаційного покриву ріпарів за допомогою бета-регресії та моделей копули Лісова наука, 57 (3), 212-221. Ці автори використовують пакет бетарегів у R від Cribari-Neto та Zeileis. У наступній статті йдеться про хороший спосіб перетворення змінної відповіді, розподіленої бета-версією, коли вона включає значення 0 та / або 1 у діапазоні відсотків: Смітсон, М. та Дж. Веркуйлен, 2006. Кращий лимонний

Відповіді:


7

Ви маєте рацію, що біноміальний розподіл призначений для дискретних пропорцій, які виникають із кількості "успіхів" від кінцевого числа випробувань Бернуллі, і що це робить розподіл невідповідним вашим даним. Ви повинні використовувати розподіл Гамма, поділений на суму цієї Гами плюс іншу Гамму. Тобто вам слід використовувати бета-розподіл для моделювання безперервних пропорцій.

У мене є приклад бета - регресії в мій відповідь тут: Зняти ефект фактора на безперервні дані пропорції з використанням регресії в R .

Оновлення:
@ DimitriyV.Masterov підкреслює хороший момент, коли ви згадуєте, що ваші дані мають ', але бета-розподіл підтримується лише на . Це спонукає до питання, що робити з такими значеннями. Деякі ідеї можна отримати з цієї чудової нитки резюме: Як мала кількість слід додати до x, щоб уникнути взяття журналу 0?0(0, 1)


3
Чи може бета-розподіл обробити нулі?
Мастеров Дмитро Васильович

1

Значення відсотків представляють норми, незалежні від кількості вибірок. Ви хочете використовувати ці відсотки як залежну змінну та супутникові знімки як пояснювальну змінну. Однак я думаю, що не всі 50 ділянок в інвентарі мали аналогічну кількість зразків. Відповідна модель, яка пов'язує ці відсотки з іншими змінними, повинна враховувати цю невизначеність при вимірюванні, надаючи більше ваги на ділянках з високими зразками.

Крім того, розподіл помилок у випадку з вашими даними явно двочленний. Дисперсія помилок є найменшою на межах, вона фіксується біноміальним розподілом.

Це все мені здається архетипним прикладом використання GLM з біноміальною помилковою моделлю.

"Статистика: вступ за допомогою R", глава 14 Кроулі розглядає саме цю тему і як її аналізувати з Р.


4
Біноміальний розподіл є розподілом числа успіхів від відомого числа випробувань Бернуллі. Ваш коментар, що "те, що випробування Бернуллі також описуються біноміальним розподілом, не означає, що все, що описується біноміальним розподілом, повинно відповідати структурі Бернуллі", є невірним. Біноміальний розподіл не підходить для безперервних пропорцій. Крім того, я запропонував не розподіл Gamma, а бета-розподіл.
gung - Відновіть Моніку

1
так, ви абсолютно праві.
бонобо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.