Коли R квадрат негативний?


77

Я розумію, що не може бути негативним, оскільки це квадрат Р. Однак я провів просту лінійну регресію в SPSS з єдиною незалежною змінною та залежною змінною. Мій вихід SPSS дає мені негативне значення для . Якби я розраховував це вручну з R, тоді було б позитивним. Що SPSS зробив, щоб обчислити це як негативне?R2R 2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Код, який я використав:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Я отримую негативне значення. Хтось може пояснити, що це означає?

Негативний RSquared

введіть тут опис зображення


3
Чи відповідає це на ваше запитання? stats.stackexchange.com/questions/6181/… Якщо ні, то, будь ласка, надайте додаткову інформацію: це "вихід SPSS" якої процедури?
whuber

2
Чи має ваша лінійна регресійна модель перехоплення?
NPE

2
@Anne Знову, яку процедуру SPSS ви використовуєте?
whuber

1
@Anne Я пропоную вам не зважати на відповідь часових рядів, оскільки ваші дані не є часовими рядами, і ви не використовуєте процедуру часових рядів. Ви дійсно впевнені, що квадрат R задається як від'ємне значення? Його величина правильна: . Я переглянув допомогу SPSS, щоб побачити, чи, можливо, як конвенція значення R-квадрата для негативних R заперечується, але я не бачу жодних доказів того, що це так. Можливо, ви могли б розмістити знімок екрана на виході, де ви читаєте R-квадрат? (-0,395)2=0,156
whuber

1
Залежна змінна - ціна будинків, тому можливо, що 95% ІС, можливо, 120 000. На жаль, я не можу розміщувати дані тут, оскільки це буде суперечити умовам використання даних.
Енн

Відповіді:


105

R2R2R2R2

Y1500

введіть тут опис зображення

Враховуючи ці дані, модель взагалі не має сенсу. Очевидно неправильна модель, можливо, обрана випадково.

(SSрег)(SSтот)R21-SSрегSSтотSSрегSSтотR2

R2rR2R2

R2


3
@JMS Це протилежне тому, що вказує мій Googling: "/ ORIGIN" фіксує перехоплення на 0; "/ NOORIGIN" "говорить SPSS не придушувати константу" ( Вступний посібник до SPSS для Windows )
whuber

10
@whuber Правильно. @ harvey-motulsky Від'ємне значення R ^ 2 - це математична неможливість (і припускає комп’ютерну помилку) для регулярної регресії OLS (з перехопленням). Це те, що робить команда «REGRESSION» і про що запитує оригінальний плакат. Також для регресії OLS R ^ 2 - це кореляція у квадраті між прогнозованим та спостережуваним значеннями. Отже, вона повинна бути негативною. Для простої регресії OLS з одним предиктором це еквівалентно кореляції у квадраті між предиктором і залежною змінною - знову ж таки, це повинно бути негативно.
Вольфганг

1
@whuber Дійсно. Моє ліжко; очевидно, я не використовую SPSS - або читаю, мабуть :)
JMS

1
@whuber. Я додав абзац, вказуючи, що при лінійній регресії R2 може бути негативним лише тоді, коли перехоплення (або, можливо, нахил) обмежене. Без обмежень R2 повинен бути додатним і дорівнює квадрату r, коефіцієнту кореляції.
Харві Мотульський

1
@HarveyMotulsky, в цьому випадку перехоплення або нахил не обмежувались. Здається, ви говорите, що Rsquared може бути негативним лише тоді, коли вони обмежені. Чи можете ви детальніше розповісти про те, що могло статися в даному конкретному випадку?
Енн

18

Ви забули включити перехоплення у свій регрес? Я не знайомий із кодом SPSS, але на сторінці 21 Економетрії Хаяші:

R2

R2=1-i=1неi2i=1н(уi-у¯)2

R2

Я перевірив би і переконався, що SPSS включає перехоплення у вашій регресії.


4
Підкоманда NOORIGIN у своєму коді повідомляє, що перехоплення було включено в модель
ttnphns

2
це дивно. Я б здогадався, що NOORIGINозначає, що перехоплення не включено в модель, а лише назву.
Метт О'Браєн

6

Це може статися, якщо у вас є часовий ряд, який є Niid, і ви побудуєте невідповідну модель ARIMA форми (0,1,0), яка є першою різницею випадкової прогулянкової моделі без дрейфу, а потім дисперсії (сума квадратів - SSE) залишків буде більше, ніж дисперсія (сума квадратів SSO) вихідного ряду. Таким чином, рівняння 1-SSE / SSO дасть від'ємне число, оскільки SSE перевищує SSO. Ми бачили це, коли користувачі просто підходять до припущеної моделі або використовують неадекватні процедури для ідентифікації / формування відповідної структури ARIMA. Чим ширше повідомлення - це те, що модель може спотворювати (приблизно як пара поганих окулярів) ваш зір. Не маючи доступу до ваших даних, у противному випадку у мене виникнуть проблеми з поясненням ваших несправедливих результатів. Ви довели це до відома IBM?

Ідея припущеної моделі, котра є продуктивною, повторила Гарві Мотульський. Чудовий пост Харві!


1
стат. Дякую. Ні, я не спілкувався з IBM. Дані не є часовими рядами. Це з даних про час.
Енн

5
@Anne та інші: Оскільки ваші дані не є часовими рядами, і ви не використовуєте процедуру часових рядів, не враховуйте мою відповідь. Інші, хто спостерігав за негативними квадратами R під час участі в часових рядах, можуть вважати мою публікацію цікавою та дотичною інформативною. Інші, на жаль, не можуть.
IrishStat

@IrishStat: Не могли б ви додати посилання на пост Харві Мотульського?
kjetil b halvorsen

Harvey тут відповів на питання.
IrishStat
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.