Я намагаюся зрозуміти логіку, що стоїть на F-тесті ANOVA в простому лінійному регресійному аналізі. Питання, яке у мене таке, наступне. Коли значення F, тобто
MSR/MSE
велике, ми приймаємо модель як значущу. У чому полягає логіка цього?
Я намагаюся зрозуміти логіку, що стоїть на F-тесті ANOVA в простому лінійному регресійному аналізі. Питання, яке у мене таке, наступне. Коли значення F, тобто
MSR/MSE
велике, ми приймаємо модель як значущу. У чому полягає логіка цього?
Відповіді:
У найпростішому випадку, коли у вас є лише один предиктор (проста регресія), скажімо, , тест повідомляє, чи пояснює, чи включає більшу частину дисперсії, помічену в порівняно з нульовою моделлю (лише перехоплення). Потім ідея полягає в тому, щоб перевірити, чи додана пояснена дисперсія (загальна дисперсія, TSS, мінус залишкова дисперсія, RSS) є достатньо великою, щоб вважати її "значною кількістю". Ми тут порівнюємо модель з одним предиктором або пояснювальною змінною базової лінії, яка є просто «шумом» (нічого, крім великої середньої величини). F X 1 Y
Аналогічно, ви можете обчислити статистику у налаштуваннях множинної регресії: У цьому випадку це становить тест всіх прогнозів, що входять до моделі, що в рамках HT означає, що ми цікавимося, чи корисний будь-який з них для прогнозування відповіді змінна. Це причина, з якої ви можете зіткнутися з ситуаціями, коли -тест для всієї моделі є значущим, тоді як деякі або -тести, пов'язані з кожним коефіцієнтом регресії, не є.t z
У статистика виглядає як
де - кількість параметрів моделі, а - кількість спостережень. Цю кількість слід віднести до розподілу для критичної чи -значної величини. Він застосовується і для простої регресійної моделі, і очевидно має деяку аналогію з класичною рамкою ANOVA.n F p - 1 , n - p p
Sidenote. Якщо у вас є більше одного передбачувача, то вам може бути цікаво, чи врахування лише підмножини цих прогнокторів "знижує" якість відповідності моделі. Це відповідає ситуації, коли ми розглядаємо вкладені моделі . Це точно та ж ситуація, що і вище, де ми порівнюємо задану регресійну модель з нульовою моделлю (не включаються прогнози). Для того, щоб оцінити зменшення поясненої дисперсії, ми можемо порівняти залишкову суму квадратів (RSS) з обох моделей (тобто те, що залишається незрозумілим, коли ви враховуєте ефект передбачувачів, наявних у моделі). Нехай і позначають базову модель (зпараметри) і модель з додатковим провісника ( Параметри), а потім , якщо є Малі, ми вважаємо, що менша модель працює так само добре, як і більша. Хорошою статистикою для використання було б співвідношення таких SS, , зважений їх ступенями свободи ( для чисельника, для знаменника). Як уже було сказано, можна показати, що ця величина відповідає розподілу (або Фішера-Снедекора) з і свободи. Якщо спостерігаєтьсябільший за відповідний квантил у заданому (як правило, ), то ми б зробили висновок, що більша модель робить "кращу роботу". (Це аж ніяк не означає, що модель з практичної точки зору правильна!)
Узагальненням наведеної ідеї є тест коефіцієнта ймовірності .
Якщо ви використовуєте R, ви можете грати з описаними вище поняттями:
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2
anova()
функція в R повертає індивідуальний рядок для кожного прогноктора в моделі. Наприклад, anova(lm0)
вище повертає рядок для V1
, V2
і Residuals
(і не тільки). Таким чином, ми отримуємо дві статистики F * для цієї моделі. Як це змінює інтерпретацію статистики F *, повідомленої в таблиці ANOVA?
anova()
для порівняння GLM. При застосуванні до lm
або aov
об'єкта він відображає окремі ефекти (SS) для кожного терміна в моделі та не показує TSS. (Я використовував , щоб застосувати це як раз навпаки, а саме після підгонки ANOVA з aov()
, я можу використовувати , summary.lm()
щоб отримати уявлення про те , лікування контрастів.) Тим НЕ менше, ви тонкі питання між summary.lm()
і summary.aov()
, особливо в зв'язку з послідовним фитинга.