Deviance та GLM
Формально можна розглядати відхилення як якусь відстань між двома імовірнісними моделями; у контексті GLM це два рази ℓ1/ ℓ0 коефіцієнти ймовірності журналу між двома вкладеними моделями \ ell_1 / \ ell_0, де ℓ0 є "меншою" моделлю; тобто лінійне обмеження параметрів моделі (пор. лема Неймана – Пірсона ), як сказав @suncoolsu. Як такий, його можна використовувати для порівняння моделей . Це також можна розглядати як узагальнення RSS, що використовується при оцінці OLS (ANOVA, регресія), оскільки він забезпечує міру відповідності моделі, що оцінюється, порівняно з нульовою моделлю (лише перехоплення). Він також працює з LM:
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
Залишки SS (RSS) обчислюються як , який легко отримується у вигляді:ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
або з (невідрегульованого)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
оскільки де - загальна дисперсія. Зауважте, що він безпосередньо доступний у таблиці ANOVA, наприкладR2=1−RSS/TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
А тепер подивіться на відхилення:
> deviance(lm.res)
[1] 98.66754
Насправді, для лінійних моделей відхилення дорівнюють RSS (ви можете згадати, що оцінки OLS та ML у такому випадку збігаються).
Відхилення та кошик
Ми можемо розглянути CART як спосіб розподілити вже позначених осіб довільних класів (у контексті класифікації). Дерева можна розглядати як модель імовірності членства в класах. Отже, на кожному вузлі ми маємо розподіл ймовірностей над класами. Тут важливо те, що листя дерева дають нам випадковий зразок з багаточленного розподілу, визначеного . Таким чином, ми можемо визначити відхилення дерева як суму над усіма листямиnipiknikpikD
Di=−2∑kniklog(pik),
слідуючи нотаціям Venables і Ріплі ( MASS , Springer 2002, 4-е видання). Якщо у вас є доступ до цієї суттєвої довідки для користувачів R (IMHO), ви можете самостійно перевірити, як такий підхід використовується для розбиття вузлів та пристосування дерева до спостережуваних даних (стор. 255 ff.); в основному, ідея полягає в тому , щоб звести до мінімуму шляхом обрізки дерева, , де є число вузлів в дереві . Тут ми визнаємо вигідність складності витрат . Тут еквівалентно поняттю домішки вузла (тобто неоднорідності розподілу в заданому вузлі), які базуються на мірі ентропії або посилення інформації, або загальновідомому індексі Джині, визначеному якD+α#(T)#(T)TD 1 - ∑ k p 2 i kD1−∑kp2ik (невідомі пропорції оцінюються із пропорцій вузла).
З деревом регресії, ідея дуже схожа, і ми можемо концептуалізувати девіантності як сума квадратів , певні для осіб поj
Di=∑j(yj−μi)2,
підсумовується по всіх листках. Тут модель вірогідності, яка розглядається в кожному аркуші, - це гауссова . Цитуючи Venables і Ripley (стор. 256), " - звичайне масштабне відхилення для гауссового GLM. Однак розподіл у внутрішніх вузлах дерева тоді є сумішшю звичайних розподілів, і тому доцільний лише на листках. Процес побудови дерева повинен розглядатися як ієрархічне уточнення ймовірнісних моделей, дуже подібних до вибору змінної вперед в регресії ". Розділ 9.2 надає більш детальну інформацію про реалізацію, але ви вже можете переглянути функціюN(μi,σ2)DDirpart
residuals()
rpart
Об'єкт, де "залишки відхилення" обчислюються як квадратний корінь мінус удвічі більший за логарифм відповідної моделі.
Вступ до рекурсивного розподілу за допомогою підпрограм rpart Аткінсона та Терно також є гарним початком. Для більш загального огляду (включаючи мішки) я рекомендував би