Як я можу використовувати значення для перевірки припущення про лінійність у аналізі множинної регресії?


13

Наведені нижче графіки - це залишкові діаграми розсіювання регресійного тесту, для яких припущення про «нормальність», «гомоскедастичність» та «незалежність» вже точно виконані! Для тестування припущення "лінійності" , хоча, переглядаючи графіки, можна здогадатися, що співвідношення криволінійне, але питання полягає в тому, як можна використати значення для "R2 лінійного" для перевірки припущення про лінійність? Який прийнятний діапазон для значення "R2 Linear", щоб вирішити, чи є співвідношення лінійним? Що робити, якщо припущення про лінійність не виконане, а трансформація IV також не допомагає? !!

Ось посилання на повні результати тесту.

Розсилки сюжетів:

введіть тут опис зображення

введіть тут опис зображення

введіть тут опис зображення


3
Я бачу, як виглядають графіки, якими ви користуєтесь SPSS. Просто відкрийте графік для редагування та знайдіть «Додати кнопку підгонки», там ви знайдете кілька варіантів нелінійного малювання ліній, наприклад Loess. Перевірте, чи цей параметр дає вам досить пряму лінію.
ttnphns

@ ttnphns: Я додав сюжет із рядком 2 Лосса до питання.
Кіра

Ну, це виглядає досить криволінійно, чи не так? Ви можете грати більше з параметрами Loess, щоб побачити, що відбувається. Якщо лінія вигнута, то візуально можна зробити висновок, що зв'язок не є лінійним.
ttnphns

@Cyrus, я опублікував загальну відповідь на це питання, але збирався додати трохи тлумачення на ваших сюжетах і зрозумів, що я не зовсім впевнений, що осі та є у вашому сюжеті - ви можете уточнити? уxy
Макрос

@ ttnphns: так, це криволінійно. Я не знаю, як ставитися до цієї моделі! У цьому тесті (№2) у мене є 2 IV, які безпосередньо впливають на DV (PIT). Результат регресії показав, що лише 1 із IV значно впливає на ДВ. R2 настільки низький (0,172), а лінійність також низька (принаймні, згідно з графіком, коли IV знаходиться на низьких рівнях). Я не знаю, чи прийнятний цей тест чи ні! Навіть я перетворив обидва IV (обчисливши їх LN) і повторно застосував регресію, але результат став ще гіршим!
Кіра

Відповіді:


15

Слід зазначити , що припущення про лінійність ви маєте в виду тільки говорить , що умовне середнє даний є лінійною функцієюX iYiXi . Ви не можете використовувати значення для перевірки цього припущення.R2

Це тому, що - це лише співвідношення у квадраті між спостережуваним та прогнозованим значеннями, а значення коефіцієнта кореляції однозначно не визначає співвідношення між та (лінійним чи іншим способом), і можливі обидва наступні два сценарії: X YR2XY

  • Високий але припущення про лінійність як і раніше важливо помиляєтьсяR2

  • Низький але припущення про лінійність все ще задоволеноR2

Я обговорюю кожного по черзі:

(1) Високий але припущення про лінійність все-таки помиляється важливим чином:R2 фокус полягає в тому, щоб маніпулювати тим фактом, що кореляція дуже чутлива до людей, що переживають люди . Припустимо, у вас є предиктори , які генеруються із розподілу суміші, який є нормальним нормальним часу та масою точок у іншим та змінною відповіді, тобто X 1 ,. . . , X n 99%M1%X1,...,Xn99%M1%

Yi={Ziif XiMMif Xi=M

де і - позитивна константа, значно більша, ніж , наприклад, . Тоді та будуть майже ідеально співвіднесені:ZiN(μ,1)Mμμ=0,M=105XiYi

u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1

незважаючи на той факт , що очікуване значення дано не є лінійним - насправді це є розривної функцією кроку і очікуване значення навіть не залежить від за винятком того, коли .YiXiYiXiXi=M

(2) Низький але припущення про лінійність все-таки задовольняються:R2 фокус у тому, щоб збільшити кількість «шуму» навколо лінійної тенденції. Припустимо, у вас є предиктор та відповідь та модельXiYi

Yi=β0+β1Xi+εi

була правильною моделлю. Тому умовне середнє значення задане є лінійною функцією , тому припущення про лінійність виконується. Якщо велике відносно то буде малим. Наприклад,X i X i v a r ( ε i ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2

x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698

Отже, оцінка припущення про лінійність не є питанням того, чи може лежати в якомусь допустимому діапазоніR2 , але це скоріше питання вивчення графіків розсіювання між прогнозованими / прогнозованими значеннями та реакцією та прийняття (можливо, суб'єктивного) рішення.

Re: Що робити, коли припущення про лінійність не виконується і трансформація ІV також не допомагає? !!

Якщо нелінійність є проблемою, може бути корисним переглянути графіки залишків проти кожного прогноктора - якщо є якась помітна закономірність, це може вказувати на нелінійність у цьому прогнокторі. Наприклад, якщо цей сюжет виявляє "мископодібний" зв'язок між залишками та предиктором, це може вказувати на відсутній квадратичний термін у цьому прогнокторі. Інші структури можуть вказувати на іншу функціональну форму. У деяких випадках може статися так, що ви не намагалися перетворити правильне перетворення або що справжня модель не є лінійною в будь-якій трансформованій версії змінних (хоча можливо знайти розумне наближення).

Що стосується вашого прикладу: На підставі прогнозованих порівняно з фактичними графіками (1-й та 3-й графіки в початковій публікації) для двох різних залежних змінних, мені здається, що припущення про лінійність є доцільним для обох випадків. У першому сюжеті, схоже, може бути певна гетерокедастичність, але стосунки між ними виглядають досить лінійними. У другому сюжеті співвідношення виглядає лінійним, але сила відносин досить слабка, на що вказує великий розкид навколо лінії (тобто велика дисперсія помилок) - саме тому ви бачите низький .R2


4

Безумовно, підходити до плавнішого типу LOESS і бачити, наскільки близький до лінійного пристосування, - це один із способів оцінити лінійність функції. Я хочу звернутися до головного питання, який ступінь, в якій R-квадрат може вимірювати лінійність. Зрозуміло, оскільки означає, що дані ідеально падають на лінію. Але питання про те, наскільки близько до робить необхідності в тому , щоб визначити , що кривої є лінійним більш важким , ніж це може здатися. Безумовно, розмір вибірки є фактором. Якщо у вас всього 3 - 6 балів1 R 2 R 2 2 1 < x < 2 R 2 R 2R2=11R2R2ймовірно, буде дуже високим, незалежно від форми функції, яка може представляти дані. Навіть у великих вибірках має значення регіон, у якому збираються дані. Нелінійні функції будуть виглядати лінійно локально. Особливо це стосується многочленів. Розглянемо функцію y = x . В області функція виглядає лінійною, і дані, сформовані з цієї моделі з невеликою кількістю аддитивного шуму, призведуть до високого значення для . З іншого боку, модель може бути ідеально лінійною, але мати великий компонент шуму, а може бути невеликим.21<x<2R2R2


Дякую Майклу. Мій вибірковий зразок становить 302. Я би вдячний, якщо ви могли б ознайомитись з результатами тестування тут і побачити, чи можна правдоподібно та прийнятно звітувати. TQ
Сайрус

@Cyrus Це важко. Залишки виглядають так, що вони дуже добре відповідають нормам, і я нічого не можу побачити, що було б не так з лінійною регресією. У вас пристойний обсяг даних. Квадрат R низький, тому що компонент випадкового шуму великий. Діаграма LOESS показує деяку кривизну при нижчих значеннях незалежної змінної. Але я не вважаю це переконливим. Я думаю, що це може бути лінійним, і це показує, чому R квадрат не є хорошим показником у цьому випадку.
Майкл Р. Черник

Tq Майкл :) Так, це дійсно дивно! Всі припущення чудово виконані, але лінійність! Як ви бачите на першому графіку вище, квадратичний R2 (0,199) більший, ніж лінійний R2 (0,172), що означає, що він може прогнозувати модель краще. Насправді, коли я робив квадратичну регресію (додаючи SC2), графік розсіювання в результаті був таким гетеросцедичним! Я так розгубився! Не знаєте, що робити з цією моделлю! Єдина проблема - це низька лінійність. Я не знаю, як виправдати лінійність, якщо я розміщую сюжет розкиду у своєму звіті. Квадратична регресія також не виконує припущення про однорідність. Довідка
Сайрус

1
Я не думаю, що це викликає здивування. Це виглядає досить лінійно. Існує велика варіативність, через що квадрат R низький. Я думаю, що єдиним способом, яким ви могли б зменшити мінливість, було б знайти іншу пояснювальну змінну.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.