Це гарне запитання, тому що "різні кількості", здається, не є великим поясненням.
Є дві важливі причини, щоб бути обережними при використанні для порівняння цих моделей: вона занадто жорстка (вона не дуже оцінює корисність придатності ) і буде невідповідною принаймні для однієї з моделей. Ця відповідь стосується цього другого питання.R2
Теоретичне лікування
R2 порівнює дисперсію залишків моделі з дисперсією відповідей. Варіантність - середнє квадратичне відхилення від пристосування. Як такий, ми можемо зрозуміти як порівняння двох моделей відповіді . R2y
"Базова" модель є
yi=μ+δi(1)
де - параметр (середня теоретична відповідь), а є незалежними випадковими "помилками", кожна з нульовим середнім значенням і загальною дисперсією .μδiτ2
Модель лінійної регресії вводить вектори як пояснювальні змінні:xi
yi=β0+xiβ+εi.(2)
Число та вектор - параметри (перехоплення та "нахили"). знову незалежні випадкові помилки, кожен з нульовим середнім і дисперсією загального .β0βεiσ2
R2 оцінює зменшення дисперсії порівняно з початковою дисперсією .τ2−σ2τ2
Коли ви берете логарифми і використовуєте найменші квадрати, щоб відповідати моделі , ви неявно порівнюєте співвідношення форми
log(yi)=ν+ζi(1a)
до однієї з форм
log(yi)=γ0+xiγ+ηi.(2a)
Це так само, як моделі і але з відповідями на журнал. Однак вони не рівноцінні першим двом моделям. Наприклад, вираження обох сторін дасть би(1)(2)(2a)
yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).
Умови помилки тепер множать базові відносини . Отже, варіації відповідей єexp(ηi)yi=exp(γ0+xiγ)
Var(yi)=exp(γ0+xiγ)2Var(eηi).
Відхилення залежать від . xi Це не модель , яка припускає, що всі дисперсії дорівнюють постійній .(2)σ2
Зазвичай лише одна з цих моделей може бути розумним описом даних. Застосування другого набору і коли перший набір і є хорошою моделлю, або перший, коли другий хороший, означає роботу з нелінійний набір гетеросседастичних даних, який повинен погано відповідати лінійній регресії. Якщо будь-яка з цих ситуацій має місце, ми можемо очікувати, що краща модель буде демонструвати більший . Однак як бути, якщо це не так? Чи можна все ж очікувати, що більший допоможе нам визначити кращу модель?(1a)(2a)(1)(2)R2R2
Аналіз
У певному сенсі це не гарне питання, тому що якщо жодна модель не підходить, нам слід знайти третю модель. Однак перед нами питання стосується корисності допомагаючи нам визначити це. Більше того, багато людей спочатку замислюються про форму співвідношення між і це лінійна, чи логарифмічна, чи це щось інше - не переймаючись характеристиками помилок регресії чи . Отже, давайте розглянемо ситуацію, коли наша модель виправдовує відносини, але помиляється щодо її структури помилок, або навпаки .R2xyεiηi
Така модель (яка зазвичай зустрічається) - це найменші квадрати, що підходять до експоненціальних відносин,
yi=exp(α0+xiα)+θi.(3)
Тепер логарифм є лінійною функцією , як у , але умови помилки є адитивними , як у . У таких випадках може ввести нас в оману у виборі моделі з неправильним співвідношенням між і .yx(2a)θi(2)R2xy
Ось ілюстрація моделі . Існує спостережень для (1-вектор, рівномірно розподілений між та ). На лівій панелі відображаються вихідні дані а на правій - панелі . Штриховими червоними лініями побудовано справжнє основне співвідношення, тоді як суцільні сині лінії показують, що підходять найменші квадрати. Дані та справжній взаємозв'язок однакові на обох панелях: відрізняються лише моделі та їх відповідність.(3)300xi1.01.6(x,y)(x,log(y))
Відповідно до відповідей журналу праворуч явно добре: він майже збігається з істинним співвідношенням і обидва є лінійними. Пристосованість до початкових відповідей ліворуч явно гірше: вона лінійна, тоді як справжнє відношення експоненціальне. На жаль, він має помітно більше значення : порівняно з . Ось чому ми не повинні довіряти щоб привести нас до кращої моделі. Ось чому ми не повинні задовольнятися придатністю навіть тоді, коли "високий" (і в багатьох додатках значення справді вважатиметься високим).R20.700.56R2R20.70
Між іншим, кращий спосіб оцінити ці моделі включає корисність тестів на придатність (які вказували б на перевагу моделі журналу справа) та діагностичні схеми для стаціонарності залишків (що висвітлило б проблеми з обома моделями). Такі оцінки, природно, призведуть або до зваженого найменшого квадрату, відповідного або безпосередньо до самої моделі , яка повинна бути придатною з використанням методів максимальної вірогідності або нелінійних найменших квадратів.log(y)(3)