Порівняння двох лінійних моделей регресії


12

Я хотів би порівняти дві моделі лінійної регресії, які представляють швидкість деградації мРНК протягом часу за двох різних умов. Дані для кожної моделі збираються незалежно.

Ось набір даних.

Журнал часу (годин) (обробка A), журнал (лікування B)
0 2,02 1,97
0 2,04 2,06
0 1,93 1,96
2 2,02 1,91
2 2,00 1,95
2 2,07 1,82
4 1,96 1,97
4 2.02 1.99
4 2.02 1.99
6 1,94 1,90
6 1,94 1,97
6 1,86 1,88
8 1,93 1,97
8 2.12 1.99
8 2,06 1,93
12 1,71 1,70
12 1,96 1,73
12 1,71 1,76
24 1,70 1,46
24 1,83 1,41
24 1,62 1,42

Це мої моделі:

Exp1.A.lm<-lm(Exp1$Time~Exp1$(Treatment A))
Exp1.B.lm<-lm(Exp1$Time~Exp1$(Treatment B))
Виклик:
lm (формула = Exp1 $ Час ~ Exp1 $ (Лікування A))

Залишки:
    Мінімум 1Q Медіана 3Q Макс 
-6,8950 -1,2322 0,2862 1,2244 5,2494 

Коефіцієнти:
                   Оцінити Std. Помилка t значення Pr (> | t |)    
(Перехоплення) 74,68 6,27 11,91 2,94е-10 ***
Exp1 $ (Лікування A) -36,14 3,38 -10,69 1,77e-09 ***
---
Сигнаф. коди: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Залишкова стандартна помилка: 2,97 на 19 градусів свободи
Кілька R-квадратів: 0,8575, Регульований R-квадрат: 0,85 
F-статистика: 114,3 на 1 і 19 DF, p-значення: 1,7772e-09

Виклик:
lm (формула = Exp1 $ Час ~ Exp1 $ (Лікування B))

Залишки:
   Мінімум 1Q Медіана 3Q Макс 
-7.861 -3.278 -1.444 3.222 11.972 

Коефіцієнти:
                      Оцінити Std. Помилка t значення Pr (> | t |)    
(Перехоплення) 88.281 16.114 5.478 2.76e-05 ***
Exp1 $ (Лікування B) -41,668 8,343 -4,994 8,05e-05 ***
---
Сигнаф. коди: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1

Залишкова стандартна помилка: 5,173 на 19 градусах свободи
Кілька R-квадратів: 0,5676, Регульований R-квадрат: 0,5449 
F-статистика: 24,94 на 1 і 19 DF, р-значення: 8,052e-05

Для порівняння цих двох моделей я використав цей наступний код.

anova(Exp1.A.lm,Exp1.B.lm)
Аналіз варіативної таблиці

Модель 1: Час Exp1 $ ~ Exp1 $ Exp1 $ (Лікування A)
Модель 2: Час Exp1 $ ~ Exp1 $ Exp1 $ (Лікування B)
  Res.Df RSS Df Сума Sq F Pr (> F)
1 19 167.60                      
2 19 508,48 0 -340,88

Моє запитання, чому аналіз ANOVA не показує статистику F та p.val. Вибачте, якщо це наївне питання.

Виходячи з різних схилів, швидкість деградації відрізняється в цих двох моделях, але я хотів би знати, наскільки статистично значуща ця різниця. Я сподіваюся, що це має сенс.


2
Ви можете помітити, що таблиця ANOVA перераховує ступені свободи, пов'язані з аналізом, як 0 ; у вас однакова кількість змінних в обох моделях, це є причиною того, що ніяких значень F або p не можна обчислити.
gung - Відновіть Моніку

5
Я б не покладався порівнювати ці моделі, поки не перевірив їхню придатність. Я думаю, у другому ви побачите, що ні реакція, ні її логарифм не є лінійними функціями часу. Це ставить під сумнів (серйозно) будь-яке порівняння оцінок схилів.
whuber

Відповіді:


11

Якщо ви встановите дані в один довгий стовпчик з A і B як новий стовпець, ви можете запустити свою регресійну модель як GLM з безперервною змінною часу та номінальною змінною "експеримент" (A, B). Вихід ANOVA дасть вам значення різниці між параметрами. "перехоплення" є загальним перехопленням, а фактор "експерименту" відображатиме відмінності між перехопленнями (фактично загальними засобами) між експериментами. Коефіцієнт "Час" буде загальним нахилом, а взаємодія - різницею між експериментами відносно до схилу.

Я повинен визнати, що я обманюю (?) І запускаю моделі спочатку окремо, щоб отримати два набори параметрів та їх помилки, а потім запустити комбіновану модель, щоб отримати відмінності між методами лікування (у вашому випадку A і B) ...


3
Це розумний підхід. Коли ви "обманюєте", чи перевіряєте ви, що відхилення помилок приблизно однакові у кожної моделі? І якщо вони виявляються істотно різними, як це впливає на ваші рекомендації?
whuber

GLM - це хороший підхід, і для дослідження даних підгонка окремих моделей є хорошим способом судити про відхилення помилок між експериментами. Якщо хтось насправді хвилює, вони могли б розширити модель GLM, щоб включити специфічні для групи помилки відхилення, а не неявне припущення про загальну дисперсію помилок для всіх експериментальних даних.
prince_of_pears

Інша річ, яка спадає на думку, полягає в тому, чи зацікавлена ​​ОП торгувати, чи швидкості деградації між експериментами просто відрізняються одна від одної (ігноруючи абсолютну швидкість), чи ці показники також статистично (або практично) відрізняються від нуля. Перший становить тест гіпотези про те, що коефіцієнт взаємодії між лікуванням та часом дорівнює нулю. Другий полягає у виконанні або двох окремих тестів (або одного спільного тесту гіпотези), що кожна швидкість відрізняється від нуля. Мені може бути цікавіше тестувати другий перед першим.
prince_of_pears

5

Аналіз ANOVA не показує статистику F і значення p.value, оскільки обидві моделі мають однакові залишкові ступені свободи (тобто 19), і якщо взяти різницю, то це буде нуль! Після того, як ви приймете різницю, ви повинні мати хоча б один ступінь свободи для виконання F-тесту.


Я не впевнений, чи розумію вашу відповідь. Чи є причина, що залишкові ступені свободи рівні? Будь-яка пропозиція щодо альтернативного підходу для порівняння схилів?
Рооз

n=21(TreatmentA)orExp1dfT=n1=20dfT=dferror+dfregressorsdferror=19

Існує багато способів порівняння їх, крім F-тесту. Найпростішим є використання декількох R-квадратів та регульованих R-квадратів, як у вас в підсумках. Модель з більш високим R-квадратом або з регульованим R-квадратом краще. Тут кращою моделлю здається модель з Exp1 $ (Лікування A). Але пам’ятайте, що вам слід перевірити залишки вашої моделі, щоб перевірити адекватність пристосованої моделі. Я особисто не рекомендую покладатися лише на критерії R-квадрата, і ви також повинні перевірити інші припущення в лінійній моделі. Особливо подивіться, чи є залишки автокорельовані чи ні.
Стати
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.