Високомірна регресія: чому


16

Я намагаюся ознайомитися з дослідженнями в області високомірної регресії; коли p більше n , т, p>>n . Схоже, що термін logp/n часто з'являється з точки зору швидкості конвергенції для регресійних оцінювачів.

β^

1nXβ^Xβ22=OP(σlogpnβ1).

Зазвичай це також означає, що повинен бути меншим за .nlogpn

  1. Чи існує інтуїція, чому це співвідношення настільки помітне?logp/n
  2. Крім того, з літератури виходить, що проблема великої розмірної регресії ускладнюється, коли . Чому так?logpn
  3. Чи є хороша довідка, яка обговорює питання щодо того, як швидко повинні зростати і порівняно один з одним?нpn

2
1. The Термін log p походить від (гауссова) концентрації міри. Зокрема, якщо у вас єpIID гауссових випадкових величин, їх максимум знаходиться в порядкуσlogpp з високою ймовірністю. Коефіцієнтn - 1 якраз і відповідає тому, що ви дивитесь на середню помилку прогнозування - тобто, вона відповідаєn - 1 з іншого боку - якби ви подивились на загальну помилку, її не було б. σlogpn1n1
mweylandt

1
2. По суті, у вас є дві сили, які вам потрібно контролювати: i) хороші властивості мати більше даних (тому ми хочемо, щоб було великим); б) ці труднощі , які мають більш (не має значення) функції (так що ми хочемо малим). У класичній статистиці ми, як правило, фіксуємо і відпускаємо до нескінченності: цей режим не надто корисний для теорії великих розмірів, оскільки він знаходиться в режимі низьких розмірів за побудовою. Крім того, ми могли б дозволити перейти до нескінченності і залишатися виправленими, але тоді наша помилка просто підірветься і перейде до нескінченності. p p n p nnppnpn
mweylandt

1
Отже, нам потрібно розглянути як обидва йдуть у нескінченність, так що наша теорія є одночасно релевантною (залишається високомірною), не будучи апокаліптичною (нескінченні риси, кінцеві дані). Мати дві «ручки», як правило, важче, ніж мати одну ручку, тому ми фіксуємо на деякий і відпускаємо до нескінченності (а значить, непрямо). Вибір визначає поведінку проблеми. З моїх відповідей на Q1 виявляється, що "поганість" від додаткових особливостей зростає лише як тоді як "доброта" від додаткових даних зростає як . p = f ( n ) f n p f log p nn,pp=f(n)fnpflogpn
mweylandt

1
Тому, якщо залишається постійним (рівнозначно для деякого ), ми наточуємо воду. Якщо ( ), ми асимптотично досягаємо нульової помилки. І якщо ( ), помилка в підсумку переходить до нескінченності. Цей останній режим в літературі іноді називають «надвисокомірним». Це не безнадійно (хоч це і близько), але для управління помилкою потрібні набагато більш досконалі методи, ніж просто макс гауссів. Необхідність використання цих складних прийомів є найвищим джерелом тієї складності, яку ви відзначаєте. p = f ( n ) = Θ ( C n ) C log p / n 0 p = o ( C n ) log p / n p = ω ( C n )logp/np=f(н)=Θ(Сн)Сжурналp/н0p=о(Сн)журналp/нp=ω(Сн)
мвайландт

@mweylandt Спасибі, ці коментарі дуже корисні. Чи можете ви звернутись до них з офіційною відповіддю, щоб я міг прочитати їх більш злагоджено і висловити вас?
Грінпаркер

Відповіді:


17

(Перейдено з коментарів до відповіді, як вимагає @Greenparker)

Частина 1)

Термін походить від (гауссова) концентрації вимірювання. Зокрема, якщо у вас єlogp IID гауссових випадкових величин [F1], їх максимум знаходиться в порядку σ p з високою ймовірністю.σlogp

Коефіцієнт n1 якраз і відповідає тому, що ви дивитесь на середню помилку прогнозування - тобто, вона відповідає з іншого боку - якби ви подивилися на загальну помилку, її не було б.n1

Частина 2)

По суті, у вас є дві сили, якими потрібно керувати:

  • i) хороші властивості мати більше даних (тому ми хочемо, щоб було великим);n
  • б) ці труднощі , які мають більш (не має значення) функції (так що ми хочемо малим).p

У класичній статистиці ми зазвичай фіксуємо і нехайn переходимо до нескінченності: цей режим не надто корисний для теорії великих розмірів, оскільки він (асимптотично) в режимі низьких розмірівза побудовою.pn

Крім того, ми могли б відпустити переходити до нескінченності і n залишатися виправленими, але тоді наша помилка просто вибухає, оскільки проблема стає по суті неможливою. Залежно від проблеми, помилка може перейти до нескінченності або зупинитися на якійсь природній верхній межі ( наприклад , 100% помилка помилкового класифікації).pn

Оскільки обидва ці випадки трохи марні, ми натомість вважаємо обидва, що йдуть у нескінченність, так що наша теорія є одночасно релевантною (залишається високомірною), не будучи апокаліптичною (нескінченні особливості, кінцеві дані).n,p

Мати дві «ручки», як правило, важче, ніж мати одну ручку, тому ми фіксуємо для деякого фіксованого f і відпускаємо n до нескінченності (а отже, p переходить до нескінченності побічно). [F2] Вибір f визначає поведінку проблеми. З моїх відповідей до частини 1 виявляється, що "поганість" від додаткових особливостей зростає лише як log p, тоді як "доброта" з додаткових даних зростає як n .p=f(n)fnpflogpn

  • Якщо залишається постійним (рівнозначноp=f(n)=Θ(Cn)для деякогоC), ми просочуємо воду і проблема полягає в промиванні (помилка залишається виправленою асимптотично);logpnp=f(n)=Θ(Cn)C
  • якщо (p=o(Cn)) асимптотично досягаємо нульової помилки;logpn0p=o(Cn)
  • і якщо (p=ω(Cn)), помилка з часом переходить у нескінченність.logpnp=ω(Cn)

Цей останній режим в літературі іноді називають "надвимірним". Наскільки я знаю, термін "ультравимірний" не має чіткого визначення, але це неофіційно просто "режим, який ламає ласо і подібні оцінки".

Ми можемо продемонструвати це за допомогою невеликого імітаційного дослідження в досить ідеалізованих умовах. Тут ми беремо теоретичні вказівки щодо оптимального вибору від [BRT09] і вибираємо λ = 3 λ .λ=3log(p)/n

Спочатку розглянемо випадок, коли . Це в «простежуваному» високовимірному режимі, описаному вище, і, як передбачає теорія, ми бачимо, що помилка прогнозування сходить до нуля:p=f(n)=3n

Високомірні асимптотики

Код для відтворення:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Ми можемо порівняти це з випадком, коли залишається приблизно постійним: я називаю це "граничним" ультрависокомірним режимом, але це не стандартний термін:logpn

P <- 10 + ceiling(exp(N/120))

Тут ми бачимо, що помилка прогнозування (використовуючи той же дизайн, що і вище) вимикається, а не продовжує до нуля.

Прикордонні ультравимірні асимптотики

Penen2en2

P <- 10 + ceiling(exp(N^(1.03)/120))

Асимптотика надвисоких розмірів

Xen1.5

Незважаючи на те, що я говорив вище, і як це може здатися, ультрависокий розмірний режим насправді не є абсолютно безнадійним (хоча він і близький), але для управління помилкою потрібні набагато більш складні методи, ніж просто максимум гауссових випадкових змінних. Необхідність використання цих складних прийомів є найвищим джерелом тієї складності, яку ви відзначаєте.

p,np=f(n)

Частина 3)

logpn

n,pn,p

Якщо вам зручно і бажаєте поглибитися в дослідницьку літературу, я би роздивився твори Джаньцзіна Фана і Джінчі Льва, які зробили більшість фундаментальних робіт над надвимірними проблемами. ("Скринінг" - це хороший термін для пошуку)

[F1] Насправді, будь-яка підгаузька випадкова величина, але це не дуже додає до цієї дискусії.

sns=g(n)

[F3] Т. Хасті, Р. Тібшірані та М. Вайнрайт. Статистичне навчання з рідкістю. Монографії зі статистики та прикладної ймовірності 143. CRC Press, 2015. Доступний для безкоштовного завантаження на веб- сайті https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Пітер Дж. Біккель, Яаков Ритов та Олександр Б. Цибаков. "Одночасний аналіз селектора Лассо та Данцига". Літописи статистики 37 (4), с. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620


1
журналp/н

н
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.