Для простого прикладу припустимо, що існує дві моделі лінійної регресії
- Модель 1 має три провісники,
x1a
,x2b
, іx2c
- Модель 2 має три предиктори з моделі 1 та два додаткові прогнози
x2a
таx2b
Існує рівняння регресії чисельності населення, де пояснюється дисперсія популяції для Моделі 1 та для Моделі 2. Інкрементальна дисперсія, пояснена Модель 2 у сукупності, є ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
Мені цікаво отримати стандартні помилки та довірчі інтервали для оцінювача . Хоча приклад стосується 3 та 2 предикторів відповідно, мій науковий інтерес стосується широкого кола різної кількості предикторів (наприклад, 5 і 30). Перша моя думка полягала в тому, щоб використовувати в якості оцінювача і завантажувати його, але я не був впевнений, чи буде це бути відповідним. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Запитання
- Чи розумний оцінювач ? Δ ρ 2
- Як можна отримати довірчий інтервал для зміни r-квадрата сукупності (тобто )?
- Чи підходить для завантаження підрахунок довірчого інтервалу?
Будь-які посилання на симуляції чи опубліковану літературу також були б вітати.
Приклад коду
Якщо це допомагає, я створив невеликий набір даних моделювання в R, який можна використовувати для демонстрації відповіді:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Причина для занепокоєння при завантаженні
Я запустив завантажувальний механізм за деякими даними з приблизно 300 випадків, 5 провісників у простій моделі та 30 прогнозів у повній моделі. У той час як оцінка вибірки з використанням відрегульованої різниці r-квадратів 0.116
, інтервал завантаженого довіри був переважно більшим CI95% (0,095 до 0,214), а середнє значення завантажувальних рядів ніде не було поряд із оцінкою вибірки. Швидше за все, середнє значення вибіркових зразків було орієнтоване на оцінку вибірки різниці між r-квадратами у вибірці. Це незважаючи на те, що я використовував зразок, скоригований r-квадратами, щоб оцінити різницю.
Цікаво, що я спробував альтернативний спосіб обчислення as
- обчислити зразок r-квадратної зміни
- відрегулювати зміну зразка r-квадрата за допомогою стандартної відрегульованої формули r-квадрата
При застосуванні до вибіркових даних це зменшило оцінку до, але довірчі інтервали видалися підходящими для способу, про який я згадав спочатку, CI95% (.062, .179) із середнім значенням .118..082
Загалом, я стурбований тим, що завантаження даних передбачає, що вибірки є сукупністю, і тому підрахунки, що зменшення кількості надмірних розмірів може не працювати належним чином.