Тут є кілька питань.
(1) Модель має бути явно вірогідною . Майже у всіх випадках не буде НЕ набір параметрів , для яких Л.Ш. відповідає РІТ для всіх ваших даних: буде нев'язки. Вам потрібно зробити припущення щодо цих залишків. Ви очікуєте, що в середньому вони будуть нульовими? Бути симетрично розподіленим? Щоб бути приблизно нормально розподіленим?
Ось дві моделі, які погоджуються з вказаною, але дозволяють різко відрізнятися залишковим поведінкою (і, отже, зазвичай призводять до різних оцінок параметрів). Ви можете змінювати ці моделі, змінюючи припущення про спільний розподіл :ϵi
B: y i = β 0 exp ( β 1 x 1 i + … + β k x k i ) + ϵ i .
A: y i= β0досвід( β1х1 i+ … + Βкхk i+ ϵi)
Б: у i= β0досвід( β1х1 i+ … + Βкхk i) + ϵi.
уiуi^
(2) Необхідність обробляти нульові значення для y означає, що заявлена модель (A) є неправильною і неадекватною , оскільки вона не може дати нульового значення незалежно від того, дорівнює випадкова помилка. Друга модель вище (B) передбачає нульові (або навіть негативні) значення y. Однак не слід вибирати модель виключно на такій основі. Ще раз повторюю: важливо досить добре моделювати помилки.
(3) Лінеаризація змінює модель . Як правило, це призводить до таких моделей, як (A), але не як (B). Її використовують люди, які достатньо проаналізували свої дані, щоб знати, що ця зміна не вплине помітно на оцінки параметрів, а також на людей, які не знають про те, що відбувається. (Важко, багато разів, сказати різницю.)
у
f( уi)θj∼ F( θ ) ;= βj 0+ βj 1х1 i+ ⋯ + βj kхk i
ПрЖθ[ ф( Y) = 0 ] = θj + 1> 0θθ 1 , … , θ j f y Pr F θ [ f ( Y ) ≤ t ] ( 1 - θ j + 1 ) F θ ( t ) t ≠ 0Жθ1, … , ΘjfуПрЖθ[ ф( Y) ≤ t ]( 1 - θj + 1) Жθ( t )t ≠ 0
(5) Питання побудови моделі та її пристосування пов'язані, але різні . Як простий приклад, навіть звичайна регресійна модель може бути багатьма способами за допомогою найменших квадратів (що дає ті самі оцінки параметрів, як Максимальна ймовірність та майже однакові стандартні помилки), ітераційно переобладнані найменші квадрати , різні інші форми " найміцніших найменших квадратів " і т. д. Вибір підгонки часто базується на зручності, доцільності ( наприклад , доступності програмного забезпечення), знайомстві, звичці або умові, але принаймні слід подумати. задано те, що підходить для передбачуваного розподілу термінів помилки , до чогоϵ iY= β0+ β1Х+ ϵϵiФункція втрати для проблеми може бути розумною і до можливості використання додаткової інформації (наприклад, попереднього розподілу параметрів).