Що означає, що лінійна регресія має бути статистично значущою, але має дуже низький r?


14

Я розумію, що це означає, що модель погано прогнозує окремі точки даних, але встановила тверду тенденцію (наприклад, y зростає, коли х зростає).


9
Це може запропонувати дуже великий розмір вибірки
Генрі

2
R-квадрат має деякий багаж. stats.stackexchange.com/questions/13314/…
Відновити Моніку

Відповіді:


27

Це означає, що ви можете пояснити невелику частину дисперсії в даних. Наприклад, ви можете встановити, що ступінь коледжу впливає на зарплату, але в той же час це лише невеликий фактор. Є багато інших факторів, які впливають на вашу зарплату, і внесок ступеня коледжу дуже малий, але помітний.

На практиці це може означати, що в середньому ступінь коледжу збільшує зарплату на 500 доларів на рік, тоді як стандартне відхилення зарплат у людей становить 10 тис . Доларів . Отже, багато людей, котрі здобувають освіту в коледжах, мають менші зарплати, ніж неосвічені, і цінність вашої моделі прогнозування низька.


11

Це означає "невиправна помилка висока", тобто найкраще, що ми можемо зробити (з лінійною моделлю) обмежена. Наприклад, такий набір даних:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Зауважте, хитрість у цьому наборі даних полягає в тому, що з огляду на одне значення є занадто багато різних значень y , щоб ми не могли зробити хороший прогноз, щоб задовольнити їх усі. У той же час між x і y існують "сильні" лінійні кореляції . Якщо ми підходимо до лінійної моделі, ми отримаємо значні коефіцієнти, але низькі R у квадраті.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

введіть тут опис зображення



3

Що означає, що лінійна регресія має бути статистично значущою, але має дуже низький r?

Це означає, що між незалежною та залежною змінною існує лінійна залежність, але про це співвідношення, можливо, не варто говорити.

Однак значущість стосунків дуже залежить від того, що ви вивчаєте, але, як правило, ви можете вважати, що статистичну значимість не слід плутати з актуальністю.

Якщо достатньо великий розмір вибірки, навіть найтривіальніші стосунки можуть бути статистично значущими.


1
Насправді лінійна регресія означає лінійну в параметрах. Неопрацьовані залежні змінні можуть бути перетворені, і ви все ще маєте лінійну регресію. Я трохи спантеличений тим, що ви вважаєте статистичним значенням. Для мене це означає, що оцінки параметрів великі.
Майкл Р. Черник

^ Значущість стосується ймовірності того, що результати були виключно випадковими і що між предикторами та залежною змінною немає зв’язку. якщо у вас невеликий розмір вибірки і результати вагомі, то так, оцінки параметрів були б великими. однак, при смішно великій вибірці ви можете отримати вагомі результати навіть при дуже малій оцінці параметрів. спробуйте його тут: danielsoper.com/statcalc/calculator.aspx
faustus

Те, що ви говорите, звучить як загальний опис того, про що йдеться. Але статистична значимість - це специфічний термін, який пов'язаний з перевищенням критичного значення (ів), коли критичне значення (и) залежать від конкретного рівня значущості, який обирає аналітик (наприклад, 0,05. 0,01 тощо). Розмір вибірки - ще один фактор. У процесі регресії ви перевіряєте кілька гіпотез (значення окремих коефіцієнтів регресії, а також тест на відсутність взаємозв'язку. Це також може бути ускладнено, виконуючи ступінчасті процедури, що вибирають декілька можливих моделей.
Майкл Р. Черник

1
Статистика є частиною науки та частиною мистецтва, але вона базується на математичних принципах.
Майкл Р. Черник

2
@MichaelChernik Ви можете трохи детальніше? Я погоджуюся з фаустом (насправді я випадково дав подібну відповідь) і не можу зрозуміти вашу думку. При лінійній регресії значимість ((чи то значення окремих коефіцієнтів регресії, чи ціла регресія) перевіряється на тлі гіпотези про відсутність взаємозв'язку (коефіцієнт точно 0). Маючи достатньо даних, ви можете сказати, що коефіцієнти не нульові, але все ж жахливі малий. (продовжує)
Лука Сіті

2

Іншим способом формулювання цього є те, що це означає, що ви можете впевнено прогнозувати зміни на рівні населення, але не на індивідуальному рівні. тобто існує велика дисперсія в окремих даних, але коли використовується достатньо велика проба, базовий ефект можна побачити в цілому. Це одна з причин, чому деякі поради з питань охорони здоров’я уряду не корисні для людини. Уряди іноді відчувають необхідність діяти, оскільки вони можуть бачити, що більша частина певної діяльності призводить до загальної кількості смертей серед населення. Вони дають поради або політику, яка рятує ці життя. Однак через велику розбіжність в індивідуальній відповіді особа може бути дуже малоймовірною, щоб особисто побачити якусь користь (або, що ще гірше, через специфічні генетичні умови, власне здоров'я фактично поліпшилося б, дотримуючись протилежних порад, але це приховано в сукупності населення). Якщо індивід отримує користь (наприклад, задоволення) від «нездорової» діяльності, дотримання порад може означати, що вони відмовилися від цього певного задоволення протягом усього життя, але насправді особисто не змінюється, чи не страждали б вони від цього стану.


Дуже хороший приклад!
kjetil b halvorsen

R2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.