Проста лінійна регресія, p-значення та AIC


13

Я усвідомлюю, що ця тема виникала вже не раз, наприклад, тут , але я все ще не знаю, як найкраще інтерпретувати результати регресії.

У мене дуже простий набір даних, що складається з стовпця значень x та стовпця значень y , розділених на дві групи відповідно до місцезнаходження (loc). Точки виглядають приблизно так

введіть тут опис зображення

Колега висунув гіпотезу, що ми повинні підходити окремим простим лінійним регресіям до кожної групи, що я зробив, використовуючи y ~ x * C(loc). Вихід показано нижче.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

введіть тут опис зображення

Дивлячись на p-значення коефіцієнтів, фіктивна змінна для місця розташування та терміну взаємодії суттєво не відрізняється від нуля, і в цьому випадку моя регресійна модель по суті зводиться до лише червоної лінії на графіку вище. Для мене це говорить про те, що підключення окремих рядків до двох груп може бути помилкою, а кращою моделлю може бути одна лінія регресії для всього набору даних, як показано нижче.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

введіть тут опис зображення

Для мене це візуально виглядає нормально, і значення p для всіх коефіцієнтів зараз значущі. Однак AIC для другої моделі набагато вище, ніж для першої.

Я розумію, що вибір моделі - це не більше, ніж просто p-значення або просто AIC, але я не впевнений, що з цього зробити. Хто-небудь може запропонувати будь-які практичні поради щодо тлумачення цього результату та вибору відповідної моделі, будь ласка ?

На мій погляд, одиночна лінія регресії виглядає нормально (хоча я розумію, що жодна з них не є особливо хорошою), але здається, що принаймні є якесь виправдання для встановлення окремих моделей (?).

Дякую!

Відредаговано у відповідь на коментарі

@Cagdas Ozgenc

Дворядкова модель була встановлена ​​за допомогою статистичних моделей Python та наступного коду

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

Як я розумію, це по суті лише скорочення для такої моделі

y=β0+β1x+β2l+β3xl

lloc=Dl=0

y=β0+β1x

loc=Nl=1

у=(β0+β2)+(β1+β3)х

яка є синьою лінією на сюжеті вище. AIC для цієї моделі повідомляється автоматично в підсумках статистичних моделей. Для однолінійної моделі я просто використовував

reg = ols(formula='y ~ x', data=df).fit()

Я думаю, що це нормально?

@ user2864849

лоc=D

Редагувати 2

Просто для повноти, ось залишкові сюжети, як запропонував @whuber. Дволінійна модель дійсно виглядає набагато краще з цієї точки зору.

Дволінійна модель

введіть тут опис зображення

Однолінійна модель

введіть тут опис зображення

Дякую усім!


3
Потрібно пояснити, чому одна лінія регресії виглядає вам краще? Для мене я бачу два кластери, які лінійно відокремлюються, і категорія N має дуже невелику дисперсію. Як ви вважаєте, перший гірший через перекриття довіри?
Марсенау

6
х

3
R2

3
@StudentT обидві моделі використовують усі точки даних. Проста модель використовує менше незалежних змінних. Один пункт даних - це весь кортеж.
Cagdas Ozgenc

5
Якщо ви хочете прийняти підхід , заснований на гіпотезу-тест для вибору моделі, ви не повинні вважати , що , оскільки два предиктори кожен незначно видаленням обох з моделі матиме мало імпорт. F-тест на спільну значимість буде відповідним.
Scortchi

Відповіді:


1

Ви намагалися використовувати обидва предиктори без взаємодії? Так було б:

y ~ x + Loc

AIC може бути кращим у першій моделі, оскільки важливе місце розташування. Але взаємодія не важлива, через що значення P не є істотними. Потім ви інтерпретуєте це як ефект x після контролю за Loc.


1

Я думаю, ви добре зробили виклик думки про те, що значення p і значення AIC самі по собі можуть визначати життєздатність моделі. Я також радий, що ви вирішили поділитися цим тут.

Як ви продемонстрували, під час розгляду різних термінів та, можливо, їх взаємодії, здійснюються різні компроміси. Отож, одне питання, що слід мати на увазі, - це мета моделі. Якщо вам доручено визначити вплив місця розташування на y, вам слід зберегти розташування в моделі незалежно від того, наскільки слабке значення p. Нульовий результат сам по собі є важливою інформацією в цьому випадку.

На перший погляд здається, що чітке Dрозташування передбачає більше y. Але існує лише вузький діапазон, xдля якого ви маєте Dі Nзначення, і значення для розташування. Відновлення коефіцієнтів моделі для цього невеликого інтервалу, ймовірно, призведе до значно більшої стандартної помилки.

Але, можливо, вам не байдуже місце розташування, яке перевищує його можливості передбачити y. Саме такі дані у вас просто траплялися, і кольорове кодування на вашому сюжеті виявило цікаву закономірність. У цьому випадку вас може більше зацікавити передбачуваність моделі, ніж інтерпретація вашого улюбленого коефіцієнта. Я підозрюю, що значення AIC в цьому випадку є більш корисними. Я ще не знайомий з АПК; але я підозрюю, що це може санкціонувати змішаний термін, оскільки існує лише невеликий діапазон, в якому ви можете змінити місце розташування для фіксованого x. Там дуже мало, що пояснює місцеположення, що xще не пояснює.


0

Ви повинні повідомити про обидві групи окремо (або, можливо, розглянути багаторівневе моделювання). Просте об'єднання груп порушує одне з основних припущень регресії (та більшості інших інфекційних статистичних методик), незалежність спостережень. Або кажучи іншим способом, змінна групування (місцеположення) - це прихована змінна, якщо вона не врахована при аналізі.

В крайньому випадку, ігнорування змінної угруповання може призвести до парадоксу Сімпсона. У цьому парадоксі ви можете мати дві групи, в яких є позитивна кореляція, але якщо ви поєднаєте їх, у вас є (хибна, неправильна) негативна кореляція. (Або навпаки, звичайно.) Див. Http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/ .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.