Лінійна проти нелінійна регресія


13

У мене є набір значень і які теоретично пов'язані експоненціально:уxy

y=axb

Одним із способів отримання коефіцієнтів є застосування природних логарифмів в обидві сторони та встановлення лінійної моделі:

> fit <- lm(log(y)~log(x))
> a <- exp(fit$coefficients[1])
> b <- fit$coefficients[2]

Інший спосіб отримати це - використання нелінійної регресії з урахуванням теоретичного набору стартових значень:

> fit <- nls(y~a*x^b, start=c(a=50, b=1.3))

Мої тести показують кращі та більш теоретичні результати, якщо я застосовую другий алгоритм. Однак я хотів би знати статистичне значення та наслідки кожного методу.

Який із них кращий?


3
Перегляньте цей пост, який стосується подібного питання. Цей документ також може зацікавити.
COOLSerdash

5
"Експонентність" зазвичай має на увазі щось, що ґрунтується на exp(): те, що ви маєте тут, частіше називають силовою функцією, законом про владу або законом про масштабування. Інших імен, без сумніву, немає. Немає зв'язку з владою в сенсі тестування гіпотез.
Нік Кокс

Відповіді:


16

"Краще" - це функція вашої моделі.

Частина причини вашої плутанини - ви написали лише половину своєї моделі.

Коли ви кажете , це насправді не так. Ваші спостережувані значення не дорівнюють ; вони мають компонент помилок. y a x by=axbyaxb

Наприклад, дві згадані вами моделі (не єдині можливі моделі будь-якими способами) роблять абсолютно різні припущення про помилку.

Ви , ймовірно , означає що - то ближче до .E(Y|X=x)=axb

Але що тоді ми будемо говорити про відхилення від цього очікування в заданому ? Це важливо!хYx

  • Коли ви підходите до нелінійної моделі найменших квадратів, ви говорите, що помилки є адитивними, а стандартне відхилення помилок є постійним у всіх даних:

    yiN(axib,σ2)

    або рівнозначно

    yi=axib+ei , зvar(ei)=σ2

  • навпаки, коли ви берете журнали та встановлюєте лінійну модель, ви говорите, що помилка є додатковою за шкалою журналу та (за шкалою журналу) постійною для даних. Це означає, що в масштабі спостережень термін помилки є мультипликативним , і тому помилок більше, коли очікувані значення більше:

    yilogN(loga+blogxi,σ2)

    або рівнозначно

    yi=axibηi , зηilogN(0,σ2)

    (Зауважте, що не є 1. Якщо невелике, потрібно дозволити цей ефект)E(η)σ2

(Ви можете робити найменші квадрати, не припускаючи нормальності / лонормальних розподілів, але центральне питання, що обговорюється, все ще застосовується ... і якщо ви ніде не є нормальними, ви, мабуть, повинні розглянути іншу модель помилок у будь-якому випадку)

Тож найкраще залежить від того, яка модель помилки описує ваші обставини.

[Якщо ви робите дослідницький аналіз із деякими даними, які раніше не бачились, ви б розглядали питання типу "Як виглядають ваші дані? (Тобто побудовані проти ? Як виглядають залишки проти ?" З іншого боку, якщо такі змінні не є рідкістю, ви вже повинні мати інформацію про їх загальну поведінку.]yxx


9

Коли ви підходите до будь-якої моделі, ви припускаєте, що набір залишків (розбіжності між спостережуваними та прогнозованими значеннями Y) слідує за Гауссовим розподілом. Якщо це припущення вірно з вашими необробленими даними (нелінійна регресія), воно не буде істинним для значень, перетворених журналом (лінійна регресія), і навпаки.

Яка модель "краща"? Той, де припущення моделі найбільш точно відповідають даним.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.