Є корисно чи небезпечно?


233

Я скумував через деякі конспекти лекцій Косма Шалізі (зокрема, розділ 2.1.1 другої лекції ), і мені нагадали, що ви можете отримати дуже низький навіть якщо у вас є повністю лінійна модель.R2

Перефразовуючи приклад Шалізі: припустимо, у вас є модель , де відома. Тоді \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] = a ^ 2 \ Var [x] + \ Var [\ epsilon], і кількість поясненої дисперсії дорівнює ^ 2 \ Var [X] , тому R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Це переходить до 0 як \ Var [X] \ rightarrow 0 і до 1 як \ Var [X] \ rightarrow \ infty .aY=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

І навпаки, ви можете отримати високий R2 навіть тоді, коли ваша модель помітно нелінійна. (Хтось має добрий приклад назовні?)

Тож коли R2 є корисною статистикою, і коли її слід ігнорувати?


5
Зверніть увагу на відповідну тему коментаря в іншому нещодавному запитанні
whuber

36
Я не маю нічого статистичного, щоб додати до відмінних відповідей (наприклад, від @whuber), але я вважаю, що правильна відповідь "R-квадрат: корисний і небезпечний". Як і будь-яка статистика.
Пітер Флом

32
Відповідь на це питання: «Так»
Фоміт

Дивіться stats.stackexchange.com/a/265924/99274 для отримання ще однієї відповіді.
Карл

Приклад із сценарію не дуже корисний, якщо ви не можете сказати нам, що таке ? Якщо теж константа, то ваш аргумент помиляється, оскільки тоді Однак, якщо є непостійним , будь ласка , побудувати проти для малого і скажи мені , що це лінійний ........Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Відповіді:


264

Для вирішення першого питання розглянемо модель

Y=X+sin(X)+ε

з iid середнього нуля та кінцевої дисперсії. Зі збільшенням діапазону (вважається фіксованим або випадковим) переходить до 1. Тим не менш, якщо дисперсія невелика (приблизно 1 або менше), дані "помітно нелінійні". У сюжетах .εXR2εvar(ε)=1

Короткий діапазон X

Ширший діапазон X

До речі, простий спосіб отримати малий - це розрізати незалежні змінні у вузькі діапазони. Регресія (використовуючи точно таку ж модель ) у кожному діапазоні буде мати низький навіть коли повна регресія, заснована на всіх даних, має високий . Розмірковування над цією ситуацією - інформаційна вправа та гарна підготовка до другого питання.R2R2R2

Обидва наступні сюжети використовують однакові дані. для повної регресії 0,86. для зрізів (шириною 1/2 від -5/2 до 5/2) є +0,16, +0,18, +0,07, +0,14, +0,08, +0,17, +0,20, +0,12, .01 , .00, читання зліва направо. У будь-якому випадку, пристосування стають кращими в ситуації з нарізаними, оскільки 10 окремих рядків можуть більш точно відповідати даним в їх вузьких межах. Незважаючи на для всіх зрізів значно нижче повного , то ні міцності відносин, в лінійності , ні дійсно , будь-який аспект даних ( за винятком того, діапазон використовується для регресії) змінилися.R2R2R2R2X

Хмара точок з повною регресією

Нарізана хмара точок з 10 регресіями

(Можна заперечити, що ця процедура нарізки змінює розподіл Це правда, але, тим не менш, вона відповідає найчастішому використанню в моделюванні з фіксованими ефектами і виявляє ступінь, в якій розповідає нам про дисперсія у ситуації випадкових ефектів. Зокрема, коли обмежується змінюватися протягом меншого інтервалу свого природного діапазону, зазвичай падає.)XR2R2XXR2

Основна проблема полягає в тому, що це залежить від занадто багатьох речей (навіть коли вони регулюються в декількох регресіях), але найбільше від дисперсії незалежних змінних та дисперсії залишків. Зазвичай це нічого не говорить про "лінійність" або "міцність відносин", а також про "добру придатність" для порівняння послідовності моделей.R2

Більшу частину часу ви можете знайти кращу статистику, ніж . Для вибору моделі можна звернутись до AIC та BIC; для вираження адекватності моделі подивіться на дисперсію залишків. R2

Це підводить нас нарешті до другого питання . Одна ситуація, в якій може мати деяке використання - це коли незалежні змінні встановлюються на стандартні значення, по суті контролюючи ефект їх дисперсії. Тоді - це дійсно проксі-сервер для дисперсії залишків, відповідно стандартизованих.R21R2


26
Яка дивовижна ретельна та чуйна відповідь від @whuber
Пітер Флом

Чи AIC та BIC явно не коригують кількість оцінених параметрів? Якщо так, то порівняння з невідрегульованим R ^ 2 видається несправедливим. Отже, я запитую, чи відповідає ваша критика R ^ 2? Схоже, якби вас покарали за «нарізку», що скоригований R ^ 2 міг би повернутися до розповіді про корисність придатності моделі.
russellpierce

7
@dr Моя критика ідеально стосується скоригованого . Єдині випадки, коли велика різниця між і скоригованим є, коли ви використовуєте навантаження параметрів порівняно з даними. У прикладі нарізки було майже 1000 точок даних, і нарізка додала лише 18 параметрів; коригування в навіть не будуть впливати на другий знак після коми, за винятком , можливо , в кінці кінців сегментів , де були тільки кілька точок дюжини даних: і було б опустити їх, на самому ділі зміцнення аргументу. R2R2R2R2
whuber

5
Відповідь на запитання у вашому першому коментарі має залежати від вашої мети, і існує кілька способів інтерпретації "тестування на лінійні відносини". Одне з них - ви хочете перевірити, чи не є нульовим коефіцієнт. Інше - ви хочете знати, чи є докази нелінійності. (сам по собі) не дуже корисний для будь-якого, хоча ми знаємо, що високий з великою кількістю даних означає, що їх розсіювання виглядає приблизно лінійно - як у мого другого або як у прикладі @ макроса. Для кожної мети існує відповідний тест і пов'язане з ним p-значення. R2R2
whuber

4
У вашому другому запитанні нам слід задуматися, що може означати "найкраща" лінійна відповідність. Один кандидат може бути будь-яким підходящим, який мінімізує залишкову суму квадратів. Ви можете сміливо використовувати як проксі-сервер для цього, але чому б не вивчити саму (скориговану) кореневу середню квадратну помилку? Це більш корисна статистика. R2
whuber

47

Ваш приклад застосовується лише тоді, коли змінна має бути в моделі . Це звичайно не застосовується, коли використовуються звичайні оцінки найменших квадратів. Щоб переконатися в цьому, зауважимо , що якщо оцінювати за методом найменших квадратів в вашому прикладі, ми отримуємо:аX a

s 2 X =1

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Де - дисперсія (вибірки) та - середнє значення (вибірки)X ¯ X =1sX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Тепер другий член завжди менший за (дорівнює в межі), тому ми отримуємо верхню межу для внеску в зі змінної :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

І тому, якщо , ми дійсно побачимо як (оскільки чисельник переходить до нуля, але знаменник переходить у ). Крім того, ми можемо отримати переходить до чогось між і залежно від того, наскільки швидко розходяться два терміни. Тепер вищезгаданий термін, як правило, розходиться швидше, ніж якщо має бути в моделі, і повільніше, якщо не має бути в моделі. В обох випадках йде в правильних напрямках.(1Ni=1NXiYi)2R20sX2Var[ϵ]>0R201sX2XXR2

А також зауважте, що для будь-якого кінцевого набору даних (тобто реального) ми ніколи не можемо мати якщо всі помилки точно не дорівнюють нулю. Це в основному вказує на те, що є відносною мірою, а не абсолютною. Бо якщо насправді не дорівнює , ми завжди можемо знайти кращу придатну модель. Це, мабуть, "небезпечний" аспект в тому, що, оскільки він масштабується між і схоже, ми можемо перервати його в абсолютному сенсі.R2=1R2R21R201

Напевно, корисніше буде подивитися на те, як швидко падає під час додавання змінних у модель. І останнє, але не менш важливо, його ніколи не слід ігнорувати при виборі змінної, оскільки фактично є достатньою статистикою для вибору змінної - вона містить всю інформацію про вибір змінної, яка є в даних. Єдине, що потрібно - це вибрати падіння яке відповідає "пристосуванню помилок" - що зазвичай залежить від розміру вибірки та кількості змінних.R2R2R2


4
+1 Багато приємних балів. Розрахунки додають кількісну думку до попередніх відповідей.
whuber

27

Якщо я можу додати приклад, коли небезпечний. Багато років тому я працював над деякими біометричними даними і, будучи молодим і нерозумним, я був у захваті, коли знайшов деякі статистично значущі значення для моїх фантазійних регресій, які я побудував за допомогою ступінчастих функцій. Лише згодом, озирнувшись після моєї презентації перед великою міжнародною аудиторією, я зрозумів, що зважаючи на велику розбіжність даних - у поєднанні з можливим поганим представленням вибірки щодо населення, 0,02 був абсолютно безглуздим. навіть якщо це було "статистично значущим" ...R2R2R2

Ті, хто працює зі статистикою, повинні розуміти дані!


15
Жодна статистика не є небезпечною, якщо ви розумієте, що це означає. Приклад Шона не має нічого спільного з квадратом R, це загальна проблема закоханості зі статистичною значимістю. Коли ми робимо статистичне тестування на практиці, нас цікавлять лише змістовні відмінності. Дві групи населення ніколи не мають однакового розподілу. Якщо вони близькі до рівних, нам все одно. Завдяки дуже великим розмірам вибірки ми можемо виявити невеликі незначні відмінності. Ось чому в своєму медичному дослідженні консалтингу я підкреслюю різницю між клінічною та статистичною значимістю.
Майкл Черник

11
Спочатку мої клієнти часто вважають, що ціль дослідження - це статистичне значення. Їм потрібно показати, що це не так.
Майкл Черник

Статистично значущий при 0,02 просто означає, що у вас було достатньо даних, щоб стверджувати, що не дорівнює 0. Але це близько до 0. Отже, відносин між незалежними змінними та залежною змінною дуже мало. R2R2
Майкл Черник

1
Абсолютно згоден Майкл. Трохи знання статистики можуть бути небезпечними! :) Виходячи з цього розуміння багато років тому, я наполегливо працював, щоб не повторити цю хитру помилку, зробивши багато досліджень, щоб краще зрозуміти, що насправді означає статистика. Ступінь магістра та доктор наук зі статистики, і я все ще думаю, що мені належить довгий шлях до навчання!
Шон

Дякую, Шон Я ціную ваші коментарі та смиренність.
Майкл Черник

16

Якщо у вас є один провісник точно інтерпретується як частка варіації , які можуть бути пояснені лінійної взаємозв'язку з . Таке тлумачення потрібно пам’ятати, дивлячись на значення .R2YXR2

Ви можете отримати великий з нелінійного відношення лише тоді, коли відношення близьке до лінійного. Наприклад, припустимо, що де і . Якщо ви робите розрахунокR2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

ви виявите, що це приблизно (я це лише за допомогою моделювання), незважаючи на те, що відносини явно не є лінійними. Причина в тому, що виглядає жахливо багато, як лінійна функція через інтервал ..914eX(2,3)


1
На зауваження Еріка та Макроса нижче, я не думаю, що хтось цього не має для мене, і, мабуть, краще мати один комбінований відповідь замість трьох окремих, але чому це важливо до того, що стільки дискусійних центрів навколо того, як ви пишіть речі і де ви пишете це, а не фокусуватися на сказаному?
Майкл Черник

8
@MichaelChernick, я не думаю, що існує "стільки" дискусій про те, як можна писати речі. Вказівки, з якими ми намагалися допомогти вам, більше відповідають принципам "якби всі це зробили, цей сайт був би дуже неорганізований і важко дотримуватися". Може здатися, що про ці речі дуже багато дискусій, але це, мабуть, тільки тому, що ви були дуже активним учасником з моменту приєднання, що чудово, оскільки ви явно приносите багато на стіл. Якщо ви хочете поговорити більше про це, розгляньте запуск теми на мета, а не обговорення коментарів під моєю незв'язаною відповіддю :)
Макрос

що відбувається, якщо один з них підтримує рівномірний розподіл у вашому прикладі?
Qbik

Оскільки я набрався досвіду на цьому сайті, я маю згоду з Макросом, що важливо бути стислим та консолідованим.
Майкл Черник

15

Однією з ситуацій, якій ви хочете уникнути є множинна регресія, де додавання нерелевантних змінних предиктора до моделі може в деяких випадках збільшувати . Це можна вирішити, скориставшись скоригованим значенням , обчисленим якR2R2R2

npR¯2=1(1R2)n1np1 де - кількість зразків даних, а - кількість регресорів, не рахуючи постійний термін .np


21
Зауважимо, що додавання невідповідних змінних гарантовано збільшує (не лише в «деяких випадках»), якщо ці змінні не є повністю колінеарними з існуючими змінними. R2
whuber

6
  1. Хорошим прикладом для високого з нелінійною функцією є квадратична функція обмежена інтервалом . При 0 шумі він не матиме квадрата 1, якщо у вас є 3 і більше точок, оскільки вони не будуть ідеально підходити до прямої лінії. Але якщо точки дизайну розкидані рівномірно на ви отримаєте , буде високою , можливо , дивно так. Це може бути не так, якщо у вас багато точок біля 0 і багато біля 1, в середині мало або нічого.R2y=x2[0,1]R2[0,1]R2

  2. R2 буде бідним у ідеальному лінійному випадку, якщо термін шуму має велику дисперсію. Таким чином, ви можете взяти модель яка технічно є ідеальною лінійною моделлю, але нехай дисперсія в e має тенденцію до нескінченності, і у вас буде переходить до 0. Незважаючи на свої недоліки, квадрат R вимірює відсоток відсотка дисперсія, що пояснюється даними, і тому вона вимірює корисність. Високий означає гарне пристосування, але ми все одно повинні бути обережні, що хороша відповідність викликана занадто великою кількістю параметрів для розміру набору даних, який ми маємо.Y=x+ϵR2R2

  3. У ситуації з множинною регресією існує проблема надмірного пристосування. Додайте змінні, і завжди збільшуватиметься. Відкоригований дещо виправляє це, оскільки враховує кількість параметрів.R2R2

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.