Звітування про результати простої лінійної регресії: яку інформацію включити?


11

Я щойно провів кілька (дуже) простих лінійних регресій у Genstat і хотів би включити стислий та змістовний підсумок результатів у свій звіт. Я не впевнений, що саме або скільки інформації я повинен включати.

Основні біти мого висновку Genstat виглядають так:

Summary of analysis 
Source      d.f.    s.s.       m.s.       v.r.    F pr.
Regression    1   8128935.   8128935.    814.41   <.001
Residual     53    529015.      9981.        
Total        54   8657950.    160332.        

Percentage variance accounted for 93.8
Standard error of observations is estimated to be 99.9.

Estimates of parameters 
Parameter    estimate    s.e.     t(53)   t pr.
Constant      41.5      30.7       1.35   0.182
UKHR_Ref       0.8659    0.0303   28.54   <.001

Я мав намір повідомити про це просто так:

Adjusted R2 = 0.94 (slope = 0.87, p < 0.001; intercept not significantly different from 0).

але колега запропонував мені також включити принаймні root mean squared error(що, на мою думку, в цьому випадку дорівнює стандартній помилці спостережень, тобто 99,9?).

Чи надає RMSE додаткова корисна інформація, чи корисність придатності вже належним чином пояснюється скоригованим значенням R2?

Чи існують жорсткі правила щодо того, скільки інформації подавати, або це досить суб'єктивно?

Дуже дякую!


1
"Чи існують жорсткі правила щодо того, скільки інформації потрібно повідомити" - це дійсно залежить від того, що ви хочете зробити після регресу. Можна бути задоволеним лише коефіцієнтом кореляції; поверх цього може знадобитися значення Дурбіна-Уотсона, а ще інший може захотіти побачити діагональ матриці капелюхів ... це дійсно залежить.
JM не є статистиком

2
У деяких організаціях є свої правила. Дивіться принципи APA , наприклад.
whuber

Відповіді:


6

Для простої лінійної регресії я б завжди створював графік змінної x проти змінної y, при цьому регресія накладається на графік (завжди малюйте ваші дані, коли це можливо!). Це дозволить вам легко зрозуміти, наскільки добре відповідає ваша модель, і її легко читати за 1 змінну регресії. Додавання цього до того, що ви вже отримали, ймовірно, буде достатньо, хоча ви, можливо, захочете включити деякі діагностичні схеми (важелі, відстань кухарів, залишки тощо). Це залежить від того, наскільки хороший сюжет Xy, а також від вашої призначеної аудиторії та будь-яких протоколів, яких очікує ваша аудиторія.

R2 проти RMSE

R2 є відносною мірою, тоді як RMSE - це більше абсолютна міра, оскільки, як можна було б очікувати, більшість спостережень буде знаходитись в межах RMSE від встановленої лінії, а майже всі - в RMSE. Якщо ви хочете передати "пояснювальну силу", , ймовірно, краще, а якщо ви хочете передати "прогнозуючу силу", RMSE, ймовірно, краще.±±2R2


Дякуємо @probabilityislogic. Я включив сюжет у свій звіт, і це звучить приблизно так, як і моє оригінальне речення повинно бути достатнім у цьому випадку. Я думаю, що включення діагностичних діаграм, мабуть, не потрібне цій аудиторії, хоча я, очевидно, сам перевіряв їх, і вони виглядають розумними. Дякую також за пояснення R2 проти RMSE - це дуже корисно.
JamesS

А як щодо t-значення (s) та df (s)? Коли вони повинні бути включені? Чи має сенс включати або те, і інше ?
горіх про natty

1

Я використовую, щоб повідомити коефіцієнт β плюс 95% ДІ, значення р і скоригований Rsquared. Наприклад:

(β = 1,46, 95% ДІ [1,19, 1,8], р = 0,001 **, скориговано R2 = 0,48)

Якщо я повідомляю про множину регресії або регресію з факторними змінними, я повідомляю про коефіцієнт, 95% ІС, значення p, а потім окремо статистику F (градусів свободи), скориговану R2 та p значення моделі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.