Високомірна регресія: чому

Я намагаюся ознайомитися з дослідженнями в області високомірної регресії; коли $p$ більше $n$ , т, $p >> n$ . Схоже, що термін $\log p/n$ часто з'являється з точки зору швидкості конвергенції для регресійних оцінювачів.

$\hat{\beta}$

\frac{1}{n} ‖ X \hat{β} - X β ‖_{2}^{2} = O_{P} (σ \sqrt{\frac{\log p}{n}} ‖ β ‖_{1}) .

$\dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,.$

Зазвичай це також означає, що повинен бути меншим за . $\log p$ $n$

Чи існує інтуїція, чому це співвідношення настільки помітне? $\log p/n$
Крім того, з літератури виходить, що проблема великої розмірної регресії ускладнюється, коли . Чому так? $\log p \geq n$
Чи є хороша довідка, яка обговорює питання щодо того, як швидко повинні зростати і порівняно один з одним? $p$ $n$

— Грінпаркер
джерело

1. The

Термін

походить від (гауссова) концентрації міри. Зокрема, якщо у вас є

IID гауссових випадкових величин, їх максимум знаходиться в порядку

\sqrt{\log p}

$\sqrt{\log p}$

p

$p$

з високою ймовірністю. Коефіцієнт

якраз і відповідає тому, що ви дивитесь на середню помилку прогнозування - тобто, вона відповідає

з іншого боку - якби ви подивились на загальну помилку, її не було б.

σ \sqrt{\log p}

$\sigma \sqrt{\log p}$

n^{- 1}

$n^{-1}$

n^{- 1}

$n^{-1}$

— mweylandt

2. По суті, у вас є дві сили, які вам потрібно контролювати: i) хороші властивості мати більше даних (тому ми хочемо, щоб було великим); б) ці труднощі , які мають більш (не має значення) функції (так що ми хочемо малим). У класичній статистиці ми, як правило, фіксуємо і відпускаємо до нескінченності: цей режим не надто корисний для теорії великих розмірів, оскільки він знаходиться в режимі низьких розмірів за побудовою. Крім того, ми могли б дозволити перейти до нескінченності і залишатися виправленими, але тоді наша помилка просто підірветься і перейде до нескінченності.

n

$n$

p

$p$

p

$p$

n

$n$

p

$p$

n

$n$

— mweylandt

Отже, нам потрібно розглянути як обидва йдуть у нескінченність, так що наша теорія є одночасно релевантною (залишається високомірною), не будучи апокаліптичною (нескінченні риси, кінцеві дані). Мати дві «ручки», як правило, важче, ніж мати одну ручку, тому ми фіксуємо на деякий і відпускаємо до нескінченності (а значить, непрямо). Вибір визначає поведінку проблеми. З моїх відповідей на Q1 виявляється, що "поганість" від додаткових особливостей зростає лише як тоді як "доброта" від додаткових даних зростає як .

n, p

$n, p$

p = f (n)

$p = f(n)$

f

$f$

n

$n$

p

$p$

f

$f$

\log p

$\log p$

n

$n$

— mweylandt

Тому, якщо залишається постійним (рівнозначно для деякого ), ми наточуємо воду. Якщо ( ), ми асимптотично досягаємо нульової помилки. І якщо ( ), помилка в підсумку переходить до нескінченності. Цей останній режим в літературі іноді називають «надвисокомірним». Це не безнадійно (хоч це і близько), але для управління помилкою потрібні набагато більш досконалі методи, ніж просто макс гауссів. Необхідність використання цих складних прийомів є найвищим джерелом тієї складності, яку ви відзначаєте.

\log p / n

$\log p / n$

p = f (n) = Θ (C^{n})

$p = f(n) = \Theta(C^n)$

C

$C$

\log p / n \to 0

$\log p / n \to 0$

p = o (C^{n})

$p = o(C^n)$

\log p / n \to \infty

$\log p / n \to \infty$

p = ω (C^{n})

$p = \omega(C^n)$

— мвайландт

@mweylandt Спасибі, ці коментарі дуже корисні. Чи можете ви звернутись до них з офіційною відповіддю, щоб я міг прочитати їх більш злагоджено і висловити вас?

— Грінпаркер

(Перейдено з коментарів до відповіді, як вимагає @Greenparker)

Частина 1)

Термін походить від (гауссова) концентрації вимірювання. Зокрема, якщо у вас є $\sqrt{\log p}$ IID гауссових випадкових величин [F1], їх максимум знаходиться в порядку $p$ з високою ймовірністю. $\sigma\sqrt{\log p}$

Коефіцієнт $n^{-1}$ якраз і відповідає тому, що ви дивитесь на середню помилку прогнозування - тобто, вона відповідає з іншого боку - якби ви подивилися на загальну помилку, її не було б. $n^{-1}$

Частина 2)

По суті, у вас є дві сили, якими потрібно керувати:

i) хороші властивості мати більше даних (тому ми хочемо, щоб було великим); $n$
б) ці труднощі , які мають більш (не має значення) функції (так що ми хочемо малим). $p$

У класичній статистиці ми зазвичай фіксуємо і нехай переходимо до нескінченності: цей режим не надто корисний для теорії великих розмірів, оскільки він (асимптотично) в режимі низьких розмірівза побудовою. $p$ $n$

Крім того, ми могли б відпустити переходити до нескінченності і залишатися виправленими, але тоді наша помилка просто вибухає, оскільки проблема стає по суті неможливою. Залежно від проблеми, помилка може перейти до нескінченності або зупинитися на якійсь природній верхній межі ( наприклад , 100% помилка помилкового класифікації). $p$ $n$

Оскільки обидва ці випадки трохи марні, ми натомість вважаємо обидва, що йдуть у нескінченність, так що наша теорія є одночасно релевантною (залишається високомірною), не будучи апокаліптичною (нескінченні особливості, кінцеві дані). $n, p$

Мати дві «ручки», як правило, важче, ніж мати одну ручку, тому ми фіксуємо для деякого фіксованого і відпускаємо до нескінченності (а отже, переходить до нескінченності побічно). [F2] Вибір визначає поведінку проблеми. З моїх відповідей до частини 1 виявляється, що "поганість" від додаткових особливостей зростає лише як тоді як "доброта" з додаткових даних зростає як . $p=f(n)$ $f$ $n$ $p$ $f$ $\log p$ $n$

Якщо залишається постійним (рівнозначнодля деякого), ми просочуємо воду і проблема полягає в промиванні (помилка залишається виправленою асимптотично); $\frac{\log p}{n}$ $p=f(n)=Θ(C^n)$ $C$
якщо () асимптотично досягаємо нульової помилки; $\frac{\log p}{n} \to 0$ $p=o(C^n)$
і якщо (), помилка з часом переходить у нескінченність. $\frac{\log p}{n}→\infty$ $p=\omega(C^n)$

Цей останній режим в літературі іноді називають "надвимірним". Наскільки я знаю, термін "ультравимірний" не має чіткого визначення, але це неофіційно просто "режим, який ламає ласо і подібні оцінки".

Ми можемо продемонструвати це за допомогою невеликого імітаційного дослідження в досить ідеалізованих умовах. Тут ми беремо теоретичні вказівки щодо оптимального вибору від [BRT09] і вибираємо $\lambda$ . $\lambda = 3 \sqrt{\log(p)/n}$

Спочатку розглянемо випадок, коли . Це в «простежуваному» високовимірному режимі, описаному вище, і, як передбачає теорія, ми бачимо, що помилка прогнозування сходить до нуля: $p = f(n) = 3n$

Код для відтворення:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Ми можемо порівняти це з випадком, коли залишається приблизно постійним: я називаю це "граничним" ультрависокомірним режимом, але це не стандартний термін: $\frac{\log p}{n}$

P <- 10 + ceiling(exp(N/120))

Тут ми бачимо, що помилка прогнозування (використовуючи той же дизайн, що і вище) вимикається, а не продовжує до нуля.

$P$ $e^n$ $e^{n^2}$ $e^{n^2}$

P <- 10 + ceiling(exp(N^(1.03)/120))

$X$ $e^{n^1.5}$

Незважаючи на те, що я говорив вище, і як це може здатися, ультрависокий розмірний режим насправді не є абсолютно безнадійним (хоча він і близький), але для управління помилкою потрібні набагато більш складні методи, ніж просто максимум гауссових випадкових змінних. Необхідність використання цих складних прийомів є найвищим джерелом тієї складності, яку ви відзначаєте.

$p, n$ $p = f(n)$

Частина 3)

$\log p$ $n$

$n, p$ $n, p$

Якщо вам зручно і бажаєте поглибитися в дослідницьку літературу, я би роздивився твори Джаньцзіна Фана і Джінчі Льва, які зробили більшість фундаментальних робіт над надвимірними проблемами. ("Скринінг" - це хороший термін для пошуку)

[F1] Насправді, будь-яка підгаузька випадкова величина, але це не дуже додає до цієї дискусії.

$s$ $n$ $s = g(n)$

[F3] Т. Хасті, Р. Тібшірані та М. Вайнрайт. Статистичне навчання з рідкістю. Монографії зі статистики та прикладної ймовірності 143. CRC Press, 2015. Доступний для безкоштовного завантаження на веб- сайті https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Пітер Дж. Біккель, Яаков Ритов та Олександр Б. Цибаков. "Одночасний аналіз селектора Лассо та Данцига". Літописи статистики 37 (4), с. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620

— mweylandt
джерело

\log p / n

$\log p/n$

n

$n$