У психології та інших сферах часто застосовується форма ступінчастої регресії, яка передбачає наступне:
- Подивіться на провідники, що залишилися (спочатку їх у моделі немає) та визначте предиктор, що призводить до найбільшої зміни r-квадрата;
- Якщо p-значення зміни r-квадрата менше альфа (зазвичай .05), тоді включіть цей предиктор і поверніться до кроку 1, інакше зупиніться.
Наприклад, див. Цю процедуру в SPSS .
Процедура регулярно критикується з широкого кола причин (див. Цю дискусію на веб-сайті Stata із посиланнями ).
Зокрема, веб-сайт Stata підсумовує кілька коментарів Френка Харрелла. Мене цікавить претензія:
[поетапна регресія] дає значення R-квадрата, які погано зміщуються до високих.
Зокрема, деякі мої сучасні дослідження зосереджені на оцінці r-квадрата населення . Під r-квадратами населення я позначаю відсоток дисперсії, пояснюваний даними популяції, що генерують рівняння в сукупності. Більшість наявної літератури, яку я переглядаю, використовувала ступінчасті методи регресії, і я хочу знати, чи надані оцінки упереджені, і якщо так, то на скільки. Зокрема, у типовому дослідженні буде 30 предикторів, n = 200, альфа введення .05 та r-квадратних оцінок приблизно в 0,50.
Що я знаю:
- Асимптотично, будь-який предиктор з ненульовим коефіцієнтом був би статистично значущим предиктором, а r-квадрат дорівнював би скоригованому r-квадрату. Таким чином, асимптотично ступінчаста регресія повинна оцінювати справжнє рівняння регресії та справжній r-квадрат популяції.
- При менших розмірах вибірки можливе опущення деяких предикторів призведе до меншого r-квадрата, ніж якщо всі прогнози були включені в модель. Але також звичне зміщення r-квадрата до вибіркових даних збільшило б r-квадрат. Отже, моя наївна думка полягає в тому, що потенційно ці дві протилежні сили можуть за певних умов призвести до об'єктивного r-квадрата. І в більш загальному напрямку напрямок зміщення залежатиме від різних особливостей даних та критеріїв включення альфа.
- Встановлення більш жорсткого критерію включення альфа (наприклад, .01, .001 тощо) повинно знижувати очікуваний розрахунковий r-квадрат, оскільки ймовірність включення будь-якого прогноктора в будь-яке покоління даних буде меншою.
- Загалом, r-квадрат - це тенденція, спрямована вперед, на збільшення популяції r-квадрата, і ступінь цього зміщення зростає при збільшенні прогнозів і менших розмірів вибірки.
Питання
Отже, нарешті, моє запитання:
- Наскільки r-квадрат від ступінчастої регресії призводить до упередженої оцінки r-квадрата сукупності?
- Наскільки ця зміщення пов'язана з розміром вибірки, кількістю предикторів, критерієм включення альфа або властивостями даних?
- Чи є посилання на цю тему?