Чому ми не можемо використовувати для перетворень залежних змінних?


10

Уявіть, що ми маємо лінійну регресійну модель із залежною змінною . Знаходимо його . Тепер ми робимо ще одну регресію, але цього разу на і аналогічно знаходимо її . Мені сказали, що я не можу порівняти обидва щоб побачити, яка модель краще підходить. Чому так? Причиною мені було те, що ми будемо порівнювати мінливість різних величин (різні залежні змінні). Я не впевнений, що це має бути достатньою причиною для цього.yRy2log(y)Rlog(y)2R2

Чи є спосіб це формалізувати?

Будь-яка допомога буде вдячна.


1
Я підозрюю, що це, можливо, обговорювалося раніше на перехресній валідації. Ви ретельно пройшли подібні теми? Також вас турбують різні залежні змінні (наприклад, ВВП проти ціни на нафту) або трансформації однієї змінної (ВВП проти зростання ВВП) або обох?
Річард Харді

@RichardHardy Я знайшов деякі, але, думаю, вони були дотичними до мого питання. Як ось цей: stats.stackexchange.com/questions/235117/… У відповіді йдеться про “так”, не дуже пояснюючи, чому.
Старий чоловік у морі.

@RichardHardy Мене цікавлять перетворення залежної змінної.
Старий чоловік у морі.

1
R2Порівняння має сенс лише між вкладеними моделями.
LVRao

@LVRao Дякуємо за ваш коментар Чому так?
Старий чоловік у морі.

Відповіді:


8

Це гарне запитання, тому що "різні кількості", здається, не є великим поясненням.

Є дві важливі причини, щоб бути обережними при використанні для порівняння цих моделей: вона занадто жорстка (вона не дуже оцінює корисність придатності ) і буде невідповідною принаймні для однієї з моделей. Ця відповідь стосується цього другого питання.R2


Теоретичне лікування

R2 порівнює дисперсію залишків моделі з дисперсією відповідей. Варіантність - середнє квадратичне відхилення від пристосування. Як такий, ми можемо зрозуміти як порівняння двох моделей відповіді . R2y

"Базова" модель є

(1)yi=μ+δi

де - параметр (середня теоретична відповідь), а є незалежними випадковими "помилками", кожна з нульовим середнім значенням і загальною дисперсією .μδiτ2

Модель лінійної регресії вводить вектори як пояснювальні змінні:xi

(2)yi=β0+xiβ+εi.

Число та вектор - параметри (перехоплення та "нахили"). знову незалежні випадкові помилки, кожен з нульовим середнім і дисперсією загального .β0βεiσ2

R2 оцінює зменшення дисперсії порівняно з початковою дисперсією .τ2σ2τ2

Коли ви берете логарифми і використовуєте найменші квадрати, щоб відповідати моделі , ви неявно порівнюєте співвідношення форми

(1a)log(yi)=ν+ζi

до однієї з форм

(2a)log(yi)=γ0+xiγ+ηi.

Це так само, як моделі і але з відповідями на журнал. Однак вони не рівноцінні першим двом моделям. Наприклад, вираження обох сторін дасть би(1)(2)(2a)

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

Умови помилки тепер множать базові відносини . Отже, варіації відповідей єexp(ηi)yi=exp(γ0+xiγ)

Var(yi)=exp(γ0+xiγ)2Var(eηi).

Відхилення залежать від . xi Це не модель , яка припускає, що всі дисперсії дорівнюють постійній .(2)σ2

Зазвичай лише одна з цих моделей може бути розумним описом даних. Застосування другого набору і коли перший набір і є хорошою моделлю, або перший, коли другий хороший, означає роботу з нелінійний набір гетеросседастичних даних, який повинен погано відповідати лінійній регресії. Якщо будь-яка з цих ситуацій має місце, ми можемо очікувати, що краща модель буде демонструвати більший . Однак як бути, якщо це не так? Чи можна все ж очікувати, що більший допоможе нам визначити кращу модель?(1a)(2a)(1)(2)R2R2

Аналіз

У певному сенсі це не гарне питання, тому що якщо жодна модель не підходить, нам слід знайти третю модель. Однак перед нами питання стосується корисності допомагаючи нам визначити це. Більше того, багато людей спочатку замислюються про форму співвідношення між і це лінійна, чи логарифмічна, чи це щось інше - не переймаючись характеристиками помилок регресії чи . Отже, давайте розглянемо ситуацію, коли наша модель виправдовує відносини, але помиляється щодо її структури помилок, або навпаки .R2xyεiηi

Така модель (яка зазвичай зустрічається) - це найменші квадрати, що підходять до експоненціальних відносин,

(3)yi=exp(α0+xiα)+θi.

Тепер логарифм є лінійною функцією , як у , але умови помилки є адитивними , як у . У таких випадках може ввести нас в оману у виборі моделі з неправильним співвідношенням між і .yx(2a)θi(2)R2xy

Ось ілюстрація моделі . Існує спостережень для (1-вектор, рівномірно розподілений між та ). На лівій панелі відображаються вихідні дані а на правій - панелі . Штриховими червоними лініями побудовано справжнє основне співвідношення, тоді як суцільні сині лінії показують, що підходять найменші квадрати. Дані та справжній взаємозв'язок однакові на обох панелях: відрізняються лише моделі та їх відповідність.(3)300xi1.01.6(x,y)(x,log(y))

Розсіювачі

Відповідно до відповідей журналу праворуч явно добре: він майже збігається з істинним співвідношенням і обидва є лінійними. Пристосованість до початкових відповідей ліворуч явно гірше: вона лінійна, тоді як справжнє відношення експоненціальне. На жаль, він має помітно більше значення : порівняно з . Ось чому ми не повинні довіряти щоб привести нас до кращої моделі. Ось чому ми не повинні задовольнятися придатністю навіть тоді, коли "високий" (і в багатьох додатках значення справді вважатиметься високим).R20.700.56R2R20.70


Між іншим, кращий спосіб оцінити ці моделі включає корисність тестів на придатність (які вказували б на перевагу моделі журналу справа) та діагностичні схеми для стаціонарності залишків (що висвітлило б проблеми з обома моделями). Такі оцінки, природно, призведуть або до зваженого найменшого квадрату, відповідного або безпосередньо до самої моделі , яка повинна бути придатною з використанням методів максимальної вірогідності або нелінійних найменших квадратів.log(y)(3)


Критика щодо R ^ 2 не справедлива. Як і кожен інструмент його використання, слід добре розуміти. У наведених вище прикладах R ^ 2 дає правильне повідомлення. R ^ 2 таким чином вибирає краще співвідношення сигнал / шум. Звичайно, це не очевидно, коли ви ставите два графіки з абсолютно різними масштабами поруч. Насправді сигнал зліва дуже сильний порівняно з відхиленнями від шуму.
Cagdas Ozgenc

@Cagdas Ви, здається, пропонуєте суто суперечливе повідомлення. Оскільки обидва сюжети неминуче знаходяться на двох різних масштабах - одна описує оригінальні відповіді, а друга описує їх логарифми, - тоді благаючи, що щось "не очевидно" через цей неминучий факт, здається, не підтримує вашу справу. Скарга на те, що ця відповідь є "несправедливою", насправді не витримує з огляду на явний аналіз запропонованих мною моделей.
whuber

У тому, що я говорю, немає суперечності. R ^ 2 вибирає більш високе співвідношення сигнал / шум. Ось що це робить. Намагатися перетворити це на щось інше і стверджувати, що це не працює, відверто неправильно. Всі закиди до R ^ 2 стосуються також інших показників корисності придатності, коли вони застосовуються до різної змінної відповіді, але чомусь R ^ 2 обраний козлом відпущення.
Cagdas Ozgenc

Мені було б по-справжньому цікаво дізнатися, @Cagdas, яку саме частину цього аналізу ви розглядаєте як "відпустку" . Наскільки я можу сказати, це безпристрасна і технічно правильна оцінка того, що таке , а не здатний досягти. Я не бачу, наскільки доречно посилатися на "співвідношення сигнал / шум", коли насправді приклад прямо показує, як краща модель (в тому сенсі, який я описав, що відповідає тому, що більшість людей означає "доброта придатності") тим гірше . R2R2R2
whuber

2
Дякуємо за вашу допомогу. Вибачте за пізнє прийняття, останнім часом у мене не було багато вільного часу. ;)
Старий чоловік у морі.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.