Чому мій R-квадрат настільки низький, коли моя t-статистика настільки велика?


18

Я побіг регресії з 4 змінних, і всі вони дуже статистично значущими, зі значеннями T 7,9,26 і 31 (я говорю бо здається недоречним включати десяткові) , які є дуже високими і чітко значущими. Але тоді R2 лише .2284. Чи неправильно я тлумачу значення t тут, щоб означати те, чого вони немає? Моя перша реакція, побачивши значення t, полягала в тому, що R2 буде досить високим, але, можливо, це високий R2 ?


1
Б'юсь у заклад, ваш n є помірно великий, правда?
Glen_b -Встановіть Моніку

@Glen_b так, близько 6000.
Кайл

11
Тоді великі t -статистики, пов'язані з малим R2 , абсолютно не примітні. Оскільки стандартні помилки зменшуються на ,t-коефіцієнти збільшаться як1/nt , тоді якR2, як правило, залишатиметься постійним зі збільшеннямn. Чому вам байдуже, що такеR2? Чому вам байдуже, що таке коефіцієнти t? nR2nR2
Glen_b -Встановіть Моніку

Відповіді:


46

Значення t і R2 використовуються для судження дуже різних речей. Значення t використовуються для оцінки точності вашої оцінки βi , але R2 вимірює величину варіації змінної вашої відповіді, поясненої вашими коваріатами. Припустимо, ви оцінюєте регресійну модель з n спостереженнями,

Yi=β0+β1X1i+...+βkXki+ϵi

де ϵii.i.dN(0,σ2) , i=1,...,n .

Великі t (в абсолютній величині) приводять вас до відмови від нульової гіпотези, що βi=0 . Це означає, що ви можете бути впевнені, що ви правильно оцінили знак коефіцієнта. Також, якщо |t|> 4 і у вас n>5 , то 0 не знаходиться в 99% довірчому інтервалі для коефіцієнта. Значення t коефіцієнта βi - різниця між оцінкою βi^ 0, нормалізованою стандартною помилкою se{βi^} .

t=βi^se{βi^}

яка є просто оцінкою, поділеною на міру її змінності. Якщо у вас є достатньо великий набір даних, ви завжди матимете статистично значущі (великі) t . Це не означає, що обов'язково означають, що ваші коваріати пояснюють значну частину варіації змінної відповіді.

Як зазначалося @Stat, R2 вимірює кількість варіацій змінної вашої відповіді, пояснених вашими залежними змінними. Щоб дізнатися більше про R2 , перейдіть до Вікіпедії . У вашому випадку, здається, у вас є достатньо великий набір даних для точної оцінки βi , але ваші коваріати виконують погану роботу з пояснення та \ або прогнозування значень відповіді.


1
(+1) З самого початку зрозуміло, що це добре продумане, інформативне пояснення.
whuber

Гарна відповідь. Я вважаю, що терміни "практичне значення" та "статистична значимість" часто корисні для роздумів над цим питанням.
Аарон залишив стек переповнення

3
Існує також просте перетворення між двома статистичними даними: R2=t2t2+df
Джефф

8

Якщо сказати те саме, що і caburke, але простіше, ви дуже впевнені, що середня відповідь, викликана вашими змінними, не дорівнює нулю. Але є багато інших речей, яких у вас немає в регресії, які змушують реакцію стрибнути.


0

Можливо, хоча ваші передбачувачі рухаються лінійно в залежності від вашої змінної відповіді (нахил значно відрізняється від нуля), що робить значення t значущими, але R-квадрат низьким, оскільки помилки великі, що означає, що мінливість у ваші дані великі, і, отже, ваша модель регресії не підходить (прогнози не такі точні)?

Всього мої 2 копійки.

Можливо, ця публікація може допомогти: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- значення


0

Кілька наведених відповідей є близькими, але все ж помилковими.

"Значення t використовуються, щоб оцінити точність вашої оцінки βi" - це саме те, що мене найбільше стосується.

Значення T є лише вказівкою на ймовірність випадкового виникнення. Великі засоби навряд чи. Невеликий означає дуже ймовірно. Позитивне та негативне значення не стосується ймовірності тлумачення.

"R2 вимірює величину варіації змінної вашої відповіді, поясненої вашими коваріатами".

(Я б прокоментував, але ця платформа ще не дозволена.)


2
Ви ніби пишете про t-значення так, ніби вони були р-значеннями.
whuber

-4

Єдиний спосіб впоратися з невеликим R квадратом, перевірте наступне:

  1. Чи достатньо великий розмір зразка? Якщо так, зробіть крок 2. але якщо ні, збільште розмір вибірки.
  2. Скільки коваріатів ви використали для оцінки своєї моделі? Якщо більше ніж 1, як у вашому випадку, вирішіть проблему мультиколінності коваріатів або просто, запустіть регресію знову і на цей раз без постійної, яка відома як бета-нуль.

  3. Однак якщо проблема все-таки зберігається, зробіть поетапну регресію та виберіть модель з високим R-квадратом. Але що я не можу вам рекомендувати, оскільки це спричиняє упередженість у коваріатах

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.