Коли використовувати непараметричну регресію?


9

Я використовую PROC GLM в SAS, щоб підходити до рівняння регресії наступної форми

Y=b0+b1X1+b2X2+b3X3+b4t

Діаграма QQ результуючих червоних осіб вказує на відхилення від нормальності. Будь-яка трансформація не корисна для того, щоб зробити залишки нормальними.Y

На цьому етапі я можу безпечно перейти до непараметричних методів, таких як PROC LOESS.

Я вже використовував PROC LOESS, і придатність виглядає краще, ніж PROC GLM. Але я не маю великих знань щодо непараметричної регресії. Я не знаю, коли вибрати непараметричну регресію над параметричною регресією.

Може хтось мені допоможе в цьому?

Я піду далі і додаю ще одне запитання. Далі наведено опис моїх змінних у моделі. Іноді я отримую негативну прогнозовану вартість. Це не має сенсу. Як я можу вирішити це питання?

Y=cost of medical careX1=number of injectionsX2=number of surgeriesX3=number of physical therapiest=time

2
Звичайно, ви можете уникнути прогнозування негативних витрат, моделюючи журнал цього :log(Y)=b0+b1X1+b2X2+b3X3+b4t
Дірк

Відповіді:


10

Перш ніж дивитись на QQplots залишків, слід оцінити якість придатності, побудувавши залишки проти передбачувачів у моделі (і, можливо, також проти інших змінних, які ви не використовували). У цьому сюжеті має проявлятися нелінійність. Якщо ефект змінної дійсно лінійний, ви очікуєте, що графік залишків проти буде "горизонтальним", без видимої структури:xx

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

Тобто випадкова горизонтальна "крапка" точок, зосереджена навколо залишку лінії = 0.

Якщо ефект нелінійний, ви очікуєте побачити деяку кривизну в цьому сюжеті. (і, будь ласка, ігноруйте QQplots до тих пір, поки не з'ясуєте нелінійності, використовуючи графіки, як зазначено вище!)

Ви також повинні подумати про можливу взаємодію (моделюється зазвичай за умовами продукту), тобто ефект однієї змінної залежить від рівнів іншої, (Якщо всі ваші три змінні одночасно мають високі значення, можливо, це показує деякі особливо важкі якщо так, то взаємодії можуть знадобитися).

Якщо ви шукаєте якусь нелінійну модель, після спробу взаємодій та перетворень (ви спробували log(Cost)?) Ви спробували деякі перетворення box-cox? Оскільки у вас є багаторазова регресія, я не думаю, що loessце те, що вам потрібно, вам слід шукати gam(узагальнені моделі добавок, SAS повинні мати це, в R це в пакеті mgcv).


1
Дякуємо за цінну інформацію. Я спробував журнал (вартість) з лінійною регресією, але це не дуже допомогло. Я додаю ефекти взаємодії та спостерігаю за тим, що відбувається. Я також знову експериментуватиму з перетвореннями. Я буду інформувати всіх про свої розробки та висновки.
апп

6

ПОГЛЯД завжди буде краще відповідати регресії, якщо дані справді не лежать по прямій лінії. LOESS - локально-лінійне наближення, призначене для проходження близько до даних. Ці методи в основному є розвідувальними. І хоча екстраполяція лінійної моделі є небезпечною за межі пристосування, екстраполяція була б необережною у випадку ПОГОДИ.

Якщо ваша модель дає вам негативні витрати, це досить хороший знак того, що лінійна регресія не підходить для ваших змінних. Ви кажете, що ви спробували трансформації. Ви брали журнал витрат проти ваших прогнозів?

За характером речей навряд чи існує просте співвідношення між вартістю та змінними, які ви згадуєте. Іноді метою лінійної регресії є просто продемонструвати, що існує якась кореляція, і, можливо, вибрати розумний набір прогнокторів.


1
Це має стільки сенсу, коли ви згадуєте, що негативні витрати вказують на те, що лінійна регресія може бути невідповідною. Я продовжу свій аналіз та додаю деякі взаємодії. Дякую.
аван

3

Браво для проведення залишкового аналізу. Відстає від типового аналітика. (Ваша характеристика моделі є недостатньою, оскільки вона не описує структуру помилок.) Ви повинні розглянути перетворення X, а також подивитися на перетворення Y. Я усвідомлюю, що SAS відстає від R у моделюванні зі сплайновими насадками, але я розумію, що останні версії запропонували цю потужність. Розглянемо додавання обмежених кубічних сплайнів для X умов. В якості довідки текст Френка Харрелла "Стратегії моделювання регресії" важко перемогти. Він має грунтовні статистичні аргументи для цього підходу. Це параметричний підхід, який дозволяє виявити структуру в даних, які були б пропущені іншими.


Дякуємо за вдячність DWin. Я щойно закінчив, і це моя перша робота на посаді аналітика. Випадково подібний аналіз теж є новиною для компанії. Отже, я просто намагаюся придумати аналіз, який не є абсолютно нонсенсом. Я візьму вашу пропозицію і спробую перетворення на обохY і Xзмінні. Я також пройду посилання. Я щойно знайшов версію PDF в Інтернеті. Дякуємо за ваш внесок.
апп

Щось не так з перетворенням журналу та виведенням, що інтуїтивно залежать лінійно. Якщо ви моделюєтеlog(Y)=b0+b1log(X1)+b2log(X2) де X1 є ін’єкції в праву руку і X2це ін'єкції в ліву руку, ви прогнозуєте зовсім інші витрати на того, хто має всі ін'єкції в одну руку, а хтось, хто має половину з них в кожну сторону
Дірк Хорстен

Ваш коментар здається досить дотичним до моєї відповіді (і на питання, оскільки розділення ін'єкцій рукою ніколи не згадувалось), я сподіваюся, ви не вважаєте, що сплайн-функції еквівалентні перетворенням журналу. Перетворення журналу Y створює модель, де модель є мультипликативною в предикторах при перетворенні назад на шкалу витрат. Це досить велика зміна і те, чиї проблеми ви не адекватно описали питаючому.
DWin

2

Я думаю, kjetil дав вам кілька хороших пропозицій. Я додам, що ненормальні залишки не означають, що вам доведеться переходити від лінійної чи нелінійної регресії до непараметричної регресії. Перейшовши на непараметричну регресію, ви відмовитесь від структури функціональної форми. Є міцна регресія, альтернатива OLS-регресії, до якої можна було б перейти першою. Потім узагальнені лінійні моделі та узагальнені моделі добавок, якщо необхідні наступні кроки. На мою думку, LOESS повинен бути вашим останнім засобом. Я думаю, що я з цим погоджуюся.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.