Справа з 0,1 значенням у бета-регресії


20

У мене є деякі дані в [0,1], які я хотів би проаналізувати за допомогою бета-регресії. Звичайно, щось потрібно зробити, щоб вмістити 0,1 значення. Мені не подобається змінювати дані, щоб відповідати моделі. також я не вірю, що інфляція нуля і 1 - це гарна ідея, тому що я вважаю, що в цьому випадку слід вважати 0-ма дуже позитивними значеннями (але я не хочу точно говорити, яке значення підходить. Розумний вибір Я вважаю, було б вибрати невеликі значення, такі як .001 та .999, і підігнати модель, використовуючи сукупний dist для бета-версії. Отже, для спостережень y_i лог-імовірність LL_i була б

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Що мені подобається в цій моделі, це те, що якщо версія бета-регресії діє, ця модель також є дійсною, але вона знімає трохи чутливості до крайніх значень. Однак це здається таким природним підходом, що мені цікаво, чому я не знаходжу в літературі очевидних посилань. Тому моє запитання замість зміни даних, чому б не змінити модель. Модифікація даних змінює результати (виходячи з припущення, що оригінальна модель є дійсною), тоді як зміна моделі за допомогою біннінгу екстремальних значень не зміщує результати.

Можливо, є проблема, яку я не помічаю?


1
На це справді неможливо дати гарну відповідь на це питання, не знаючи більше про конкретну проблему. Ключове питання полягає в тому, чи точні нулі та одиниці породжуються різним процесом, ніж той, який генерує дані в (0,1). Класичний приклад - кількість опадів, де є точні нулі, що відображають дні, де не дощ. У вашій заявці нулі та певні "особливі"?
Дікран Марсупіал

Відповіді:


16

Згідно з цим документом , відповідна трансформація

х'=х(N-1)+сN

"де N - розмір вибірки, а s - константа між 0 і 1. З байєсівської точки зору, s діє так, ніби ми беремо до уваги. Розумний вибір для s був би .5."

Це видавить дані, які лежать в щоб бути в . Вищенаведена цитата та математична причина перетворення доступні у додаткових записках статті .[0,1](0,1)


1
+1 .. Але ви могли б виправити перше посилання або хоча б цитувати папір, щоб ми могли його знайти самостійно?
whuber

1
Але це не відповідає на моє запитання. Я добре знаю, що можна перетворити дані. Мої запитання - чому б не перетворити модель замість цього?
Дейв Фурньє

1
Дейв, то, будь ласка, відредагуйте своє запитання, щоб відобразити це: наразі воно читається так, ніби ви шукаєте спосіб перетворення даних . У цьому процесі вам допоможе вказати, на вашу думку, різниця між перетворенням даних та зміною моделі, адже якщо така є, вона є тонкою.
whuber

@davefournier, Якщо ви читаєте папери з веб-сайтами Cam, він частково вирішує ваше питання. Вони також дають альтернативні рекомендації щодо моделі (див. Стор. 69), а частина рекомендацій залежать від природи даних. Ваша скоригована ймовірність виглядає як "змішаний дискретно-безперервний процес" (згаданий в кінці сторінки 69). Можливо, так і буде, що модель Тобіта буде задовільною, враховуючи ваші дані, хоча найкраще було б побачити інші посилання на відповідність моделі Тобіта, як, наприклад, книга Скотта Лонга про категоричну регресію.
Andy W

1
Але вони не приймають такого підходу. Вони пропонують іншу модель, змішаний дискретний безперервний процес. Це сильно відрізняється від обмеження екстремальних значень. Як я вже говорив, якщо бета-модель дійсна, то модель бінінгу дійсна. Якщо дискретна безперервна модель дійсна, то бета-модель недійсна. Я підозрюю, що їх в основному керували своїм аналізом типи змішаних моделей, які вони могли б відповідати своєму програмному забезпеченню. Бінізована бета-змішана модель трохи складніше вмістити.
Дейв Фурньє

3

Дейв,

Загальний підхід до цієї проблеми полягає у встановленні 2 логістичних регресійних моделей для прогнозування того, чи є випадок 0 або 1. Потім для тих, хто знаходиться в діапазоні (0,1), використовується бета-регресія.


ви могли б навести приклад? або документ, що обговорює це більш детально?
user1607

2

(журнал(х),журнал(1-х))

х(х,х2)

Я вважаю, що обох легко оцінити байєсівським шляхом, оскільки вони обидві експоненціальні сім'ї. Це модифікація моделі, як ви сподівалися.


1

Я думаю, що фактична «правильна» відповідь на це питання - це нуль-одна завищена бета-регресія. Це розроблено для обробки даних, які постійно змінюються на інтервалі [0,1], і дозволяє багатьом реальним значенням 0 і 1 бути в даних. Цей підхід вписує три окремі моделі в байєсівський контекст, подібний до запропонованого @B_Miner.

Модель 1: Чи значення дискретного значення 0/1, або значення (0,1)? Підходить з розподілом бернуллі.

Модель 2: Підходить дискретний підмножина з розподілом Бернуллі.

Модель 3: Підмножина (0,1) з бета-регресією.

Для прогнозування результати першої моделі можуть бути використані для зважування прогнозів моделей 2 і 3. Це може бути реалізовано в рамках zoibпакету R, або в домашніх умовах в BUGS / JAGS / STAN / тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.