Який взаємозв'язок між R-квадратом та p-значенням у регресії?

tl; dr - для регресії OLS, чи має вищий R-квадрат також вищу величину P? Зокрема для однієї пояснювальної змінної (Y = a + bX + e), але також було б цікаво знати декілька n пояснювальних змінних (Y = a + b1X + ... bnX + e).

Контекст - я виконую регресію OLS на діапазоні змінних і намагаюся розробити найкращу пояснювальну функціональну форму, створивши таблицю, що містить значення R-квадрата між лінійною, логарифмічною тощо, перетвореннями кожної пояснювальної (незалежної) змінної і змінна відповідь (залежна). Це виглядає приблизно так:

Назва змінної - лінійна форма-- - ln (змінна) --exp (змінна) - ... тощо

Змінна 1 ------- R-квадрат ---- ---- R-квадрат ---- R-квадрат -
... і т.д. ...

Мені цікаво, чи R-квадрат підходить, чи значення Р було б краще. Імовірно, є певні відносини, оскільки більш значущі відносини означатимуть більшу пояснювальну силу, але не впевнені, чи це правда суворо.

— економетричне питання
джерело

Також цікаво: корисний чи небезпечний R ^ 2? .

— whuber

Відповіді:

Відповідь - ні, немає такої регулярної залежності між і загальним р-значенням регресії, оскільки залежить стільки ж від дисперсії незалежних змінних, скільки і від дисперсії залишків (до якої вона обернена пропорційний), і ви можете змінювати дисперсію незалежних змінних на довільні величини. $R^2$ $R^2$

В якості прикладу, розглянемо будь- набір багатовимірних даних з індексації випадків і припустимо , що безліч значень першої незалежної змінної, , має унікальний максимум відокремлений від другого за значенням додатного значення . Застосуйте нелінійне перетворення першої змінної, яка надсилає всі значення менше $((x_{i1}, x_{i2}, \ldots, x_{ip}, y_i))$ $i$ $\{x_{i1}\}$ $x^*$ $\epsilon$ в діапазон і посилаєсебе до деякого великого значення . Для будь-якого такого це можна зробити, наприклад, підходящим (масштабованим) перетворенням Box-Cox , тому ми не говоримо про нічого дивного чи "патологічного". Тоді як $x^* - \epsilon/2$ $[0,1]$ $x^*$ $M \gg 1$ $M$ $x \to a((x-x_0)^\lambda - 1)/(\lambda-1))$ $M$ зростає довільно великим, наближається до настільки близько, як вам завгодно, незалежно від того, наскільки погана прилягання, оскільки дисперсія залишків буде обмежена, тоді як дисперсія першої незалежної змінної асимптотично пропорційна . $R^2$ $1$ $M^2$

Натомість вам слід використовувати корисні випробування на придатність (серед інших методик) для вибору відповідної моделі під час дослідження: вам слід потурбуватися про лінійність придатності та гомоскорективність залишків. І не приймайте жодних p-значень із отриманої регресії довіри: вони закінчуються майже безглуздими після того, як ви пройшли цю вправу, оскільки їх інтерпретація передбачає, що вибір вираження незалежних змінних не залежав від значень залежна змінна взагалі, що дуже не так.

— дзижчати
джерело

Ця відповідь безпосередньо не стосується центрального питання; це не більше ніж якась додаткова інформація, яка занадто довга для коментаря.

Я вказую на це , тому що econometricstatsquestion , без сумніву , стикаються з цією інформацією, чи що - щось схоже на якийсь - то момент (про те , що і є пов'язані) і здивування , якщо інформація , представлена в інших відповідях тут неправильно - це не так - але я думаю , варто зрозуміти, що відбувається. $F$ $R^2$

Існує взаємозв'язок за певної сукупності обставин; якщо проводити кількість спостережень і кількість предикторів, зафіксованих для даної моделі, насправді є одноманітним у , оскільки $F$ $R^2$

F = \frac{R^{2} / (k - 1)}{(1 - R^{2}) / (N - k)}

$F = \frac{R^2/(k-1)}{(1-R^2)/(N-k)}$

(Якщо розділити чисельник і знаменник на і витягнути константи в назовні, ви можете побачити, що якщо ви тримаєте і постійними.) $R^2$ $k$ $1/F \propto 1/R^2 - 1$ $N$ $k$

Оскільки для фіксованого df і p-значення монотонно пов'язані, і -значення також монотонно пов'язані. $F$ $R^2$ $p$

Але змінити майже все, що стосується моделі, і це відношення не стосується змінених обставин.

Наприклад, додавання точки робить більшим, а вилучення робить його меншим, але виконання або може збільшити або зменшити , тому схоже, що і не обов'язково рухаються разом, якщо ви додаєте або видаляєте дані. Додавання змінної зменшується але збільшує (і навпаки), тому знову ж таки, не обов'язково пов'язаний з $(N-k)/(k-1)$ $R^2$ $F$ $R^2$ $(N-k)/(k-1)$ $R^2$ $R^2$ коли ти це робиш. $F$

Зрозуміло, щойно ви порівнюєте і $R^2$ $p$ -значення в моделях з різними характеристиками, цей взаємозв'язок не обов'язково має місце, як це було показано у випадку нелінійних перетворень.

— Glen_b -Встановити Моніку
джерело

Я не згоден з вами, але, схоже, ви відповідаєте на інше питання, ніж я. Знадобилося деяке читання, але я дійшов висновку, що питання задає питання про те, який взаємозв’язок, якщо такий є, має місце між

коли (caeteris paribus) незалежні змінні нелінійно перетворюються. Лише тоді, коли ці змінні залишаються незмінними - або, принаймні, лінійно перетворюються між собою - ми можемо сказати взагалі що-небудь про такі відносини. Це частина сенсу, в якому я думаю, що ваш кваліфікований "для даної моделі" повинен розуміти.

p

$p$

R^{2}

$R^2$

— whuber

Я відповідаю на інше запитання; і я вважаю, що ваше тлумачення значення є правильним. Мене більше хвилювало, що таке питання, як те, яке я порушив, призведе до плутанини, якщо не пояснить. Наскільки я розумію, всі ваші моменти справедливі. (Зараз насправді я переживаю, що, можливо, моя відповідь не слугує уточненню, як я сподівався, а просто плутає питання. Чи вважаєте ви, що є відповідна модифікація, яка допомогла б їй? Чи потрібно її видалити?)

— Glen_b -Встановити Моніку

Мені б не хотілося, щоб її видалили, Глен. Якщо ви маєте намір внести зміни, поміркуйте більш чітко, вказуючи, про які аспекти цього питання ви пишете ( наприклад , що саме ви маєте на увазі під "заданою моделлю" та що ви маєте на увазі щодо моделей з "різними характеристиками"). Це був дух (співпраця, не критичність), в якому я запропонував свій коментар.

— whuber

I didn't feel criticized by you - you seemed to be clarifying and nothing more - but the need for it highlights an inadequacy in the answer I had been concerned about before you commented. The vagueness of 'different characteristics' are because it's a pretty general thing - vary much of anything (I even give examples of something as simple as removing a point or adding a variable to illustrate how little one needs to change) can make that monotonic relationship evaporate. I'll think about what more I might say.

— Glen_b -Reinstate Monica

+1 for the edit: these are valuable comments and it's especially useful to see the formula for

F

$F$ appear.

— whuber

"for OLS regression, does a higher R-squared also imply a higher P-value? Specifically for a single explanatory variable (Y = a + bX + e) "

Specifically for a single explanatory variable, given the sample size, the answer is yes. As Glen_b has explained, there is a direct relationship between $R^2$ and the test statistic (be it a $F$ or $t$ ). For instance, as explained in this other question (High $R^2$ squared and high $p$ -value for simple linear regression) for the simple linear regression with one covariate (and a constant), the relationship between $t$ and $R^2$ is:

$|t| = \sqrt{\frac{R^2}{(1- R^2)}(n -2)}$

So in this case, once you fix $n$ , the higher the $R^2$ the higher the $t$ statistic and the lower the p-value.

"but would also be interested to know for n multiple explanatory variables (Y = a + b1X + ... bnX + e)."

The answer is the same, but instead of looking at one variable only, we now look at all variables together -- hence the $F$ statistic, as Glen_b has shown. And here you have to fix both $n$ and the number of parameters. Or, to put it better, fix the degrees of freedom.

Context - I'm performing OLS regression on a range of variables and am trying to develop the best explanatory functional form (...)

Ok, so this is actually a different problem. If you are looking at the best explanatory functional form, you should also take a look at cross-validation techniques. Even if $R^2$ is the quantity of interest for your problem (it usually isn't), finding the best fit in-sample can be very misleading -- you usually want your findings to generalize out of sample, and proper cross-validation can help you not overfit your data too much.

And here I'm guessing that you want "predictive" power (since you say you want to find "the best explanatory functional form"). If you want to do causal inference, for instance, then the $R^2$ or other predictive performance metrics are of little help without more structural/substantive knowledge of the problem.

— Carlos Cinelli
джерело