Регресія в налаштуваннях

Я намагаюся зрозуміти, чи варто йти на регресію хребта , LASSO , регресію основного компонента (PCR) або часткові найменші квадрати (PLS) у ситуації, коли існує велика кількість змінних / ознак ( ) та менша кількість зразків ( ), і моя мета - передбачення. $p$ $n<p$

Це моє розуміння:

Регресія хребта зменшує коефіцієнти регресії, але використовує всі коефіцієнти, не роблячи їх . $0$
LASSO також зменшує коефіцієнти, але також робить їх , що означає, що він також може робити вибір змінних. $0$
Основна регресія компонентів обрізає компоненти так, що стає менше ; він відкине компоненти. $p$ $n$ $p-n$
Частковий найменший квадрат також будує набір лінійних комбінацій входів для регресії, але на відміну від ПЛР він використовує (крім ) для зменшення розмірності. Основна практична відмінність між регресією PCR та PLS полягає в тому, що для досягнення тієї самої помилки прогнозування PCR часто потрібно більше компонентів, ніж PLS ( див. Тут ). $y$ $X$

Розглянемо наступні фіктивні дані (фактичні дані, з якими я намагаюся працювати, схожі):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

Реалізація чотирьох методів:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

Найкращий опис даних:

, більшість разів ; $p > n$ $p>10n$
Змінні ( і ) співвідносяться між собою з різними ступенями. $X$ $Y$

Моє запитання, яка стратегія може бути найкращою для даної ситуації? Чому?

— Рам Шарма
джерело

Я не маю відповіді однозначно, але глава 18 Елементів статистичного навчання присвячена цій темі і охоплює, я думаю, всі методи, які ви згадуєте.

— shadowtalker

p ≫ N

$p\gg N$

@ssdecontrol Дякую за книгу, яку ви опублікували. Так корисно

— Крістіна

Я думаю, що на ваше запитання немає однозначної відповіді - це залежить від багатьох ситуацій, даних та того, що ви намагаєтесь зробити. Деякі з модифікацій можуть бути або повинні бути модифіковані для досягнення мети. Однак наступне загальне обговорення може допомогти.

Перш ніж перейти до більш досконалих методів, давайте спочатку обговоримо основну модель: регресію найменших квадратів (LS) . Є дві причини, через які оцінка найменших квадратів параметрів у повній моделі є незадовільною:

Якість прогнозування: Оцінки найменших квадратів часто мають невеликий ухил, але високу дисперсію. Якість прогнозування іноді можна покращити за рахунок усадки коефіцієнтів регресії або шляхом встановлення деяких коефіцієнтів, рівних нулю. Таким чином, упередження збільшується, але дисперсія прогнозу значно зменшується, що призводить до загального покращення прогнозу. Цей компроміс між зміщенням та дисперсією можна легко помітити, розкладаючи середню помилку квадрата (MSE). Менший MSE призводить до кращого прогнозування нових значень.
Інтерпретабельність : Якщо доступно багато змінних прогнозів, є сенс визначити тих, хто має найбільший вплив, і встановити їх у нуль, які не мають значення для прогнозування. Таким чином, ми усуваємо змінні, які пояснюватимуть лише деякі деталі, але зберігаємо ті, які дозволяють зробити основне пояснення змінної відповіді.

$k$ $k \in \{0, 1, ... , p\}$ $30$ $40$ $40$ вхідні змінні, пошук через усі можливі підмножини стає нездійсненним. Таким чином $n > p$ $p$ дуже високий.

$\beta$ $z_k, k = 1, 2, ... , q$ $x_j$

Методи відрізняються тим, як будуються лінійні комбінації. Регресія основних компонентів (PCR) шукає перетворення вихідних даних у новий набір некорельованих змінних, що називаються головними компонентами .

$y$ $X$ $y$ $X$ $\beta$ $\gamma$ $\gamma$ $q \le p$ $X$ $y$ $y$

$\lambda \ge 0$ $\lambda$

$\beta$ $\beta$ . Наклавши обмеження на розмір на коефіцієнти, це явище можна запобігти.

$X$ $p - q$ власних значень .

$Y_i$ Різниця між L1 і L2 полягає лише в тому, що L2 - це сума ваги, тоді як L1 - лише сума ваг. L1-норма має тенденцію до отримання рідких коефіцієнтів і має вбудований вибір функцій . L1-норма не має аналітичного рішення, але L2-норма має. Це дозволяє розраховувати рішення L2-норми обчислювально ефективно. L2-норма має унікальні рішення, тоді як L1-норма не має.

$s$ $0$ $s$ слід вибирати так, щоб мінімізувати оцінку очікуваної помилки прогнозу.

$p\gg N$

Аналіз основних компонентів - це ефективний метод пошуку лінійних комбінацій функцій, які мають великі відмінності в наборі даних. Але ми шукаємо тут лінійні поєднання як з великою дисперсією, так і з істотною кореляцією результату. Отже, ми хочемо заохотити аналіз основних компонентів знайти лінійні комбінації ознак, які мають високу кореляцію з результатом - контрольовані основні компоненти (див. Стор. 678, Алгоритм 18.1, у книзі « Елементи статистичного навчання» ).

Часткові найменші квадратики вниз важать галасливі риси, але не викидають їх; в результаті велика кількість галасливих особливостей може забруднити прогнози. Порогові PLS можна розглядати як шумну версію контрольованих основних компонентів, і, отже, ми не можемо очікувати, що він буде добре працювати на практиці. Контрольовані основні компоненти можуть отримати менші помилки тесту, ніж порог PLS . Однак, це не завжди створює розріджену модель, що включає лише невелику кількість функцій.

$p$

— rdorlearn
джерело

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$

Що ви маєте на увазі, говорячи про те, що "L2-норма має унікальні рішення, тоді як L1-норма не має". Мета "ласо" - опукла ...

— Ендрю М