Оцінка експоненціальної моделі


10

Експоненціальна модель - це модель, описана наступним рівнянням:

yi^=β0eβ1x1i++βkxki

Найбільш розповсюджений підхід для оцінки такої моделі - лінеаризація, яку можна легко здійснити шляхом обчислення логарифмів обох сторін. Які інші підходи? Мене особливо цікавлять ті, з якими в деяких спостереженнях може працювати .yi=0

Оновлення 31.01.2011
Мені відомо, що ця модель не може привести до нуля. Я трохи детальніше розповім, що я моделюю, і чому я вибираю цю модель. Скажімо, ми хочемо передбачити, скільки грошей витрачає клієнт у магазині. Звичайно, багато клієнтів просто дивляться, і вони нічого не купують, тому їх є 0. Я не хотів використовувати лінійну модель, оскільки вона створює багато негативних значень, що не має сенсу. Інша причина полягає в тому, що ця модель працює справді добре, набагато краще, ніж лінійна. Я використовував генетичний алгоритм для оцінки цих параметрів, тому це не був "науковий" підхід. Тепер я хотів би знати, як вирішити проблему, використовуючи більш наукові методи. Можна також припустити, що більшість або навіть усі змінні є бінарними змінними.


1
якщо у ваших даних є нулі, експоненціальна регресія може виявитися невідповідною, оскільки модель, як ви заявили, не може дозволити дотримання нульових значень.
mpiktas

Відповіді:


11

Тут є кілька питань.

(1) Модель має бути явно вірогідною . Майже у всіх випадках не буде НЕ набір параметрів , для яких Л.Ш. відповідає РІТ для всіх ваших даних: буде нев'язки. Вам потрібно зробити припущення щодо цих залишків. Ви очікуєте, що в середньому вони будуть нульовими? Бути симетрично розподіленим? Щоб бути приблизно нормально розподіленим?

Ось дві моделі, які погоджуються з вказаною, але дозволяють різко відрізнятися залишковим поведінкою (і, отже, зазвичай призводять до різних оцінок параметрів). Ви можете змінювати ці моделі, змінюючи припущення про спільний розподіл :ϵi

B: y i = β 0 exp ( β 1 x 1 i + + β k x k i ) + ϵ i .

A: yi=β0exp(β1x1i++βkxki+ϵi)
B: yi=β0exp(β1x1i++βkxki)+ϵi.

yiyi^

(2) Необхідність обробляти нульові значення для y означає, що заявлена ​​модель (A) є неправильною і неадекватною , оскільки вона не може дати нульового значення незалежно від того, дорівнює випадкова помилка. Друга модель вище (B) передбачає нульові (або навіть негативні) значення y. Однак не слід вибирати модель виключно на такій основі. Ще раз повторюю: важливо досить добре моделювати помилки.

(3) Лінеаризація змінює модель . Як правило, це призводить до таких моделей, як (A), але не як (B). Її використовують люди, які достатньо проаналізували свої дані, щоб знати, що ця зміна не вплине помітно на оцінки параметрів, а також на людей, які не знають про те, що відбувається. (Важко, багато разів, сказати різницю.)

y

f(yi)F(θ);θj=βj0+βj1x1i++βjkxki

PrFθ[f(Y)=0]=θj+1>0θθ 1 , , θ j f y Pr F θ [ f ( Y ) t ] ( 1 - θ j + 1 ) F θ ( t ) t 0Fθ1,,θjfyPrFθ[f(Y)t](1θj+1)Fθ(t)t0

(5) Питання побудови моделі та її пристосування пов'язані, але різні . Як простий приклад, навіть звичайна регресійна модель може бути багатьма способами за допомогою найменших квадратів (що дає ті самі оцінки параметрів, як Максимальна ймовірність та майже однакові стандартні помилки), ітераційно переобладнані найменші квадрати , різні інші форми " найміцніших найменших квадратів " і т. д. Вибір підгонки часто базується на зручності, доцільності ( наприклад , доступності програмного забезпечення), знайомстві, звичці або умові, але принаймні слід подумати. задано те, що підходить для передбачуваного розподілу термінів помилки , до чогоϵ iY=β0+β1X+ϵϵiФункція втрати для проблеми може бути розумною і до можливості використання додаткової інформації (наприклад, попереднього розподілу параметрів).


10

Це узагальнена лінійна модель (GLM) з функцією зв’язку журналу .

Будь-який розподіл ймовірностей на з ненульовою щільністю при нулі буде обробляти в деяких спостереженнях; найпоширенішим був би розподіл Пуассона, в результаті якого відбулася пуассонова регресія , відома також як лінійне лінійне моделювання. Іншим вибором буде негативний біноміальний розподіл .y i = 0[0,)yi=0

Якщо у вас немає даних про підрахунок або якщо приймає не цілі значення, ви все одно можете використовувати рамку узагальнених лінійних моделей, не вказуючи повністю розподіл для але замість цього лише уточнюючи зв'язок між її середньою та дисперсією з використанням квазіімовірності . P ( y i | x )yiP(yi|x)


Сором, я цього не вчили в університеті: / Здається, це буде корисним у цьому випадку, але мені потрібен певний час, щоб заглибитись у деталі. Дякую!
Томек Тарчинський

Зауважте, що завжди можна змінити на цілі значення, коли це раціонально, наприклад, виміряйте пенс / центи, а не фунти / долари. Хоча ви, можливо, захочете обійти найближчий фунт / долар так чи інакше, оскільки розподіл пенси / копійок частини ціни товару, ймовірно, буде дуже нерівномірним (тобто переважно 99). yi
Джеймс

3

Завжди можна використовувати нелінійні найменші квадрати . Тоді ваша модель буде:

yi=β0exp(β1x1i+...+βkxki)+εi

Нулі в тоді трактуватимуться як відхилення від нелінійної тенденції.yi


А як щодо початкових значень параметрів? Який хороший спосіб їх вибрати? Як я зазначив в оновленнях, можна припустити, що не існує безперервних змінних.
Томек Тарчинський

@Tomek, я думаю, немає жодного хорошого способу їх вибору. Зазвичай це залежить від даних. Я пропоную середнє значення для перехоплення та нульове значення для інших коефіцієнтів.
mpiktas
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.