Чи поступова регресія забезпечує упереджену оцінку r-квадрата населення?


14

У психології та інших сферах часто застосовується форма ступінчастої регресії, яка передбачає наступне:

  1. Подивіться на провідники, що залишилися (спочатку їх у моделі немає) та визначте предиктор, що призводить до найбільшої зміни r-квадрата;
  2. Якщо p-значення зміни r-квадрата менше альфа (зазвичай .05), тоді включіть цей предиктор і поверніться до кроку 1, інакше зупиніться.

Наприклад, див. Цю процедуру в SPSS .

Процедура регулярно критикується з широкого кола причин (див. Цю дискусію на веб-сайті Stata із посиланнями ).

Зокрема, веб-сайт Stata підсумовує кілька коментарів Френка Харрелла. Мене цікавить претензія:

[поетапна регресія] дає значення R-квадрата, які погано зміщуються до високих.

Зокрема, деякі мої сучасні дослідження зосереджені на оцінці r-квадрата населення . Під r-квадратами населення я позначаю відсоток дисперсії, пояснюваний даними популяції, що генерують рівняння в сукупності. Більшість наявної літератури, яку я переглядаю, використовувала ступінчасті методи регресії, і я хочу знати, чи надані оцінки упереджені, і якщо так, то на скільки. Зокрема, у типовому дослідженні буде 30 предикторів, n = 200, альфа введення .05 та r-квадратних оцінок приблизно в 0,50.

Що я знаю:

  • Асимптотично, будь-який предиктор з ненульовим коефіцієнтом був би статистично значущим предиктором, а r-квадрат дорівнював би скоригованому r-квадрату. Таким чином, асимптотично ступінчаста регресія повинна оцінювати справжнє рівняння регресії та справжній r-квадрат популяції.
  • При менших розмірах вибірки можливе опущення деяких предикторів призведе до меншого r-квадрата, ніж якщо всі прогнози були включені в модель. Але також звичне зміщення r-квадрата до вибіркових даних збільшило б r-квадрат. Отже, моя наївна думка полягає в тому, що потенційно ці дві протилежні сили можуть за певних умов призвести до об'єктивного r-квадрата. І в більш загальному напрямку напрямок зміщення залежатиме від різних особливостей даних та критеріїв включення альфа.
  • Встановлення більш жорсткого критерію включення альфа (наприклад, .01, .001 тощо) повинно знижувати очікуваний розрахунковий r-квадрат, оскільки ймовірність включення будь-якого прогноктора в будь-яке покоління даних буде меншою.
  • Загалом, r-квадрат - це тенденція, спрямована вперед, на збільшення популяції r-квадрата, і ступінь цього зміщення зростає при збільшенні прогнозів і менших розмірів вибірки.

Питання

Отже, нарешті, моє запитання:

  • Наскільки r-квадрат від ступінчастої регресії призводить до упередженої оцінки r-квадрата сукупності?
  • Наскільки ця зміщення пов'язана з розміром вибірки, кількістю предикторів, критерієм включення альфа або властивостями даних?
  • Чи є посилання на цю тему?

3
Основна версія поширених запитань про статистику, яку ви цитували, передувала стратегії моделювання регресії Франка Харрелла 2001 року . Нью-Йорк: Спрінгер, з чого я б почав звідси.
Нік Кокс

3
Я настійно рекомендую прочитати книгу @FrankHarrell, яку там згадує Нік Кокс; Я регулярно призначаю своїх аспірантів і вшановую студентів, які читають з нього (особливо, розділ 4). Те, що R ^ 2 є упередженим у присутності вибору змінної, досить легко зрозуміти, моделюючи безліч наборів даних (наприклад, n = 100, p = 50), які мають кореляцію сукупності нуля, а потім виконуючи будь-яку процедуру вибору змінної, яку ви хочете показати це на.
Glen_b -Встановіть Моніку

5
Як зазначають у коментарях, моделювання може показати, що у відомій ситуації ступінчаста регресія завищить , і вони можуть показати, на скільки. Але це не може показати, яка інфляція існує в ситуації, коли ви не знаєте, якими повинні бути цінності населення. Тобто, не лише результати поетапно упереджених, вони упереджені способами, які дуже важко (якщо не неможливо) оцінити. R2
Пітер Флом - Відновити Моніку

3
Якщо популяція R ^ 2 дорівнює нулю, я думаю, що зразок R ^ 2 є упередженим, навіть якщо ви не використовуєте ступінчастий відбір. Я підозрюю (але не впевнений), що це також було б упередженим, якщо населення R ^ 2 не дорівнює нулю.
позначка999

2
Для того, щоб сказати , що населення має і що ми робимо деяку форму вибору моделі, щоб зробити деякі конкретні припущення про ситуацію Котельникова - що є «істина» модель, і що вона має певний розмір, що є більше змінних, які слід враховувати, ніж є в справжній моделі (принаймні, потенційно більше) тощо. Я думаю, що навіть є наслідком того, що не всі змінні однаково сильно пов'язані з відповіддю. З цією метою я думаю, що будь-які симуляції, які ми робимо для дослідження властивостей, потребували б дотримання всіх наслідків, які він створює. R2
Glen_b -Встановити Моніку

Відповіді:


5

Посилаючись на мою книгу, є література, яка показує, що для отримання майже неупередженої оцінки при здійсненні змінного вибору потрібно вставити у формулу для скоригованого R 2 кількість кандидатів- провісників, а не кількість "відібраних" предикторів . Тому ухили, викликані зміною вибору, є істотними. Можливо, ще важливіше, що вибір змінних призводить до гіршого реального R 2 та неможливості фактично знайти "правильні" змінні.R2R2R2


Особливо, коли кількість передбачуваних кандидатів перевищує кількість спостережень!
Олексій

2

Огляд

Багато дослідників обговорювали безліч проблем із поступовою регресією (наприклад, @FrankHarrell (2001) у розділі 4.3). Зокрема, Гаррелл зазначає, що "він дає величини упереджених значень " (с.56). Існує кілька можливих тлумачень цього твердження, виходячи з того, що ви вважаєте, що це оцінювання. Якщо припустити, що оцінка є деякою формою ρ 2R2ρ2 , то можна сказати наступне: Хоча це справедливо для деяких комбінацій процесу генерації даних, розміру вибірки, набору предикторів та критерію p-значення введення предиктора, це неправда у всіх випадках.

R2ρ2R2ρ2R2R2R2ρ2

R2

R2ρ2ρ2

Моделювання

Наступне моделювання має чотири некорельовані прогнози, де r-квадрат населення становить 40%. Двоє з предикторів пояснюють по 20% кожен, а інші два провісники пояснюють 0%. Моделювання генерує 1000 наборів даних і оцінює поступову регресію r-квадрата у відсотках до кожного набору даних.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

Наступний код повертає r-квадрат з альфа-кодом для запису .01, .001, .0001 та .00001.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

Наступні результати вказують на зміщення кожної з п'яти альфа-записів. Зауважте, що я помножив r-квадрат на 100, щоб легше було бачити відмінності.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

Результати дозволяють припустити, що альфа-записи в .01 та .001 призводять до позитивного зміщення, а альфа-записи в .0001 та .00001 призводять до негативного зміщення. Тож, мабуть, альфа входу навколо .0005 призведе до неупередженої поетапної регресії.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

Основний висновок, який я беру з цього, полягає в тому, що поетапна регресія за своєю суттю не є упередженою в певному напрямку. Однак це буде принаймні дещо упередженим для всіх, окрім одного p-значення запису прогнозованого пристрою. Я беру на думку @Peter Flom, що в реальному світі ми не знаємо процесу генерації даних. Однак я уявляю, що більш детальне вивчення того, як цей зміщення змінюється в залежності від n, альфа-входу, процесів генерування даних та покрокової процедури регресії (наприклад, включаючи зворотний прохід), може суттєво повідомити про розуміння такого зміщення.

Список літератури

  • Harrell, FE (2001). Стратегічне моделювання регресії: із застосуванням до лінійних моделей, логістичною регресією та аналізом виживання. Спрингер.

Це все ще упереджено (я б сказав), ви просто значно зменшили упередження.
Джеремі Майлз

@JeremyMiles Так. Але це не є за своєю суттю упередженим у певному напрямку.
Джеромі Англім

Мені б дуже цікаво побачити, як @FrankHarrell взяв на себе це.
Glen_b -Встановити Моніку

1
SW(p)R2ppSW(p)pSW(p)p

1
@whuber Я підробив остаточний абзац, щоб сподіватися зробити кілька пунктів, які ви згадуєте, більш зрозумілими.
Джеромі Англім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.