Слід зазначити , що припущення про лінійність ви маєте в виду тільки говорить , що умовне середнє даний є лінійною функцієюX iYiХi . Ви не можете використовувати значення для перевірки цього припущення.R2
Це тому, що - це лише співвідношення у квадраті між спостережуваним та прогнозованим значеннями, а значення коефіцієнта кореляції однозначно не визначає співвідношення між та (лінійним чи іншим способом), і можливі обидва наступні два сценарії: X YR2ХY
Я обговорюю кожного по черзі:
(1) Високий але припущення про лінійність все-таки помиляється важливим чином:R2 фокус полягає в тому, щоб маніпулювати тим фактом, що кореляція дуже чутлива до людей, що переживають люди . Припустимо, у вас є предиктори , які генеруються із розподілу суміші, який є нормальним нормальним часу та масою точок у іншим та змінною відповіді, тобто X 1 ,. . . , X n 99%M1%Х1, . . . , Xн99 %М1 %
Yi= { ZiМi f Хi≠ Мi f Хi= М
де і - позитивна константа, значно більша, ніж , наприклад, . Тоді та будуть майже ідеально співвіднесені:Zi∼ N( мк , 1 )Mμμ=0,M=105XiYi
u = runif(1e4)>.99
x = rnorm(1e4)
x[which(u==1)] = 1e5
y = rnorm(1e4)
y[which(x==1e5)] = 1e5
cor(x,y)
[1] 1
незважаючи на той факт , що очікуване значення дано не є лінійним - насправді це є розривної функцією кроку і очікуване значення навіть не залежить від за винятком того, коли .YiXiYiXiXi=M
(2) Низький але припущення про лінійність все-таки задовольняються:R2 фокус у тому, щоб збільшити кількість «шуму» навколо лінійної тенденції. Припустимо, у вас є предиктор та відповідь та модельXiYi
Yi=β0+β1Xi+εi
була правильною моделлю. Тому умовне середнє значення задане є лінійною функцією , тому припущення про лінійність виконується. Якщо велике відносно то буде малим. Наприклад,X i X i v a r ( ε i ) = σ 2 β 1 R 2YiXiXivar(εi)=σ2β1R2
x = rnorm(200)
y = 1 + 2*x + rnorm(200,sd=5)
cor(x,y)^2
[1] 0.1125698
Отже, оцінка припущення про лінійність не є питанням того, чи може лежати в якомусь допустимому діапазоніR2 , але це скоріше питання вивчення графіків розсіювання між прогнозованими / прогнозованими значеннями та реакцією та прийняття (можливо, суб'єктивного) рішення.
Re: Що робити, коли припущення про лінійність не виконується і трансформація ІV також не допомагає? !!
Якщо нелінійність є проблемою, може бути корисним переглянути графіки залишків проти кожного прогноктора - якщо є якась помітна закономірність, це може вказувати на нелінійність у цьому прогнокторі. Наприклад, якщо цей сюжет виявляє "мископодібний" зв'язок між залишками та предиктором, це може вказувати на відсутній квадратичний термін у цьому прогнокторі. Інші структури можуть вказувати на іншу функціональну форму. У деяких випадках може статися так, що ви не намагалися перетворити правильне перетворення або що справжня модель не є лінійною в будь-якій трансформованій версії змінних (хоча можливо знайти розумне наближення).
Що стосується вашого прикладу: На підставі прогнозованих порівняно з фактичними графіками (1-й та 3-й графіки в початковій публікації) для двох різних залежних змінних, мені здається, що припущення про лінійність є доцільним для обох випадків. У першому сюжеті, схоже, може бути певна гетерокедастичність, але стосунки між ними виглядають досить лінійними. У другому сюжеті співвідношення виглядає лінійним, але сила відносин досить слабка, на що вказує великий розкид навколо лінії (тобто велика дисперсія помилок) - саме тому ви бачите низький .R2