Я розумію, що це означає, що модель погано прогнозує окремі точки даних, але встановила тверду тенденцію (наприклад, y зростає, коли х зростає).
Я розумію, що це означає, що модель погано прогнозує окремі точки даних, але встановила тверду тенденцію (наприклад, y зростає, коли х зростає).
Відповіді:
Це означає, що ви можете пояснити невелику частину дисперсії в даних. Наприклад, ви можете встановити, що ступінь коледжу впливає на зарплату, але в той же час це лише невеликий фактор. Є багато інших факторів, які впливають на вашу зарплату, і внесок ступеня коледжу дуже малий, але помітний.
На практиці це може означати, що в середньому ступінь коледжу збільшує зарплату на 500 доларів на рік, тоді як стандартне відхилення зарплат у людей становить 10 тис . Доларів . Отже, багато людей, котрі здобувають освіту в коледжах, мають менші зарплати, ніж неосвічені, і цінність вашої моделі прогнозування низька.
Це означає "невиправна помилка висока", тобто найкраще, що ми можемо зробити (з лінійною моделлю) обмежена. Наприклад, такий набір даних:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Зауважте, хитрість у цьому наборі даних полягає в тому, що з огляду на одне значення є занадто багато різних значень y , щоб ми не могли зробити хороший прогноз, щоб задовольнити їх усі. У той же час між x і y існують "сильні" лінійні кореляції . Якщо ми підходимо до лінійної моделі, ми отримаємо значні коефіцієнти, але низькі R у квадраті.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
Що означає, що лінійна регресія має бути статистично значущою, але має дуже низький r?
Це означає, що між незалежною та залежною змінною існує лінійна залежність, але про це співвідношення, можливо, не варто говорити.
Однак значущість стосунків дуже залежить від того, що ви вивчаєте, але, як правило, ви можете вважати, що статистичну значимість не слід плутати з актуальністю.
Якщо достатньо великий розмір вибірки, навіть найтривіальніші стосунки можуть бути статистично значущими.
Іншим способом формулювання цього є те, що це означає, що ви можете впевнено прогнозувати зміни на рівні населення, але не на індивідуальному рівні. тобто існує велика дисперсія в окремих даних, але коли використовується достатньо велика проба, базовий ефект можна побачити в цілому. Це одна з причин, чому деякі поради з питань охорони здоров’я уряду не корисні для людини. Уряди іноді відчувають необхідність діяти, оскільки вони можуть бачити, що більша частина певної діяльності призводить до загальної кількості смертей серед населення. Вони дають поради або політику, яка рятує ці життя. Однак через велику розбіжність в індивідуальній відповіді особа може бути дуже малоймовірною, щоб особисто побачити якусь користь (або, що ще гірше, через специфічні генетичні умови, власне здоров'я фактично поліпшилося б, дотримуючись протилежних порад, але це приховано в сукупності населення). Якщо індивід отримує користь (наприклад, задоволення) від «нездорової» діяльності, дотримання порад може означати, що вони відмовилися від цього певного задоволення протягом усього життя, але насправді особисто не змінюється, чи не страждали б вони від цього стану.