(Перейдено з коментарів до відповіді, як вимагає @Greenparker)
Частина 1)
Термін походить від (гауссова) концентрації вимірювання. Зокрема, якщо у вас єlogp−−−−√ IID гауссових випадкових величин [F1], їх максимум знаходиться в порядку σ √p з високою ймовірністю.σlogp−−−−√
Коефіцієнт n−1 якраз і відповідає тому, що ви дивитесь на середню помилку прогнозування - тобто, вона відповідає з іншого боку - якби ви подивилися на загальну помилку, її не було б.n−1
Частина 2)
По суті, у вас є дві сили, якими потрібно керувати:
- i) хороші властивості мати більше даних (тому ми хочемо, щоб було великим);n
- б) ці труднощі , які мають більш (не має значення) функції (так що ми хочемо малим).p
У класичній статистиці ми зазвичай фіксуємо і нехайn переходимо до нескінченності: цей режим не надто корисний для теорії великих розмірів, оскільки він (асимптотично) в режимі низьких розмірівза побудовою.pn
Крім того, ми могли б відпустити переходити до нескінченності і n залишатися виправленими, але тоді наша помилка просто вибухає, оскільки проблема стає по суті неможливою. Залежно від проблеми, помилка може перейти до нескінченності або зупинитися на якійсь природній верхній межі ( наприклад , 100% помилка помилкового класифікації).pn
Оскільки обидва ці випадки трохи марні, ми натомість вважаємо обидва, що йдуть у нескінченність, так що наша теорія є одночасно релевантною (залишається високомірною), не будучи апокаліптичною (нескінченні особливості, кінцеві дані).n,p
Мати дві «ручки», як правило, важче, ніж мати одну ручку, тому ми фіксуємо для деякого фіксованого f і відпускаємо n до нескінченності (а отже, p переходить до нескінченності побічно). [F2] Вибір f визначає поведінку проблеми. З моїх відповідей до частини 1 виявляється, що "поганість" від додаткових особливостей зростає лише як log p, тоді як "доброта" з додаткових даних зростає як n .p=f(n)fnpflogpn
- Якщо залишається постійним (рівнозначноp=f(n)=Θ(Cn)для деякогоC), ми просочуємо воду і проблема полягає в промиванні (помилка залишається виправленою асимптотично);logpnp=f(n)=Θ(Cn)C
- якщо (p=o(Cn)) асимптотично досягаємо нульової помилки;logpn→0p=o(Cn)
- і якщо (p=ω(Cn)), помилка з часом переходить у нескінченність.logpn→∞p=ω(Cn)
Цей останній режим в літературі іноді називають "надвимірним". Наскільки я знаю, термін "ультравимірний" не має чіткого визначення, але це неофіційно просто "режим, який ламає ласо і подібні оцінки".
Ми можемо продемонструвати це за допомогою невеликого імітаційного дослідження в досить ідеалізованих умовах. Тут ми беремо теоретичні вказівки щодо оптимального вибору від [BRT09] і вибираємо λ = 3 √λ .λ=3log(p)/n−−−−−−−√
Спочатку розглянемо випадок, коли . Це в «простежуваному» високовимірному режимі, описаному вище, і, як передбачає теорія, ми бачимо, що помилка прогнозування сходить до нуля:p=f(n)=3n
Код для відтворення:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
Ми можемо порівняти це з випадком, коли залишається приблизно постійним: я називаю це "граничним" ультрависокомірним режимом, але це не стандартний термін:logpn
P <- 10 + ceiling(exp(N/120))
Тут ми бачимо, що помилка прогнозування (використовуючи той же дизайн, що і вище) вимикається, а не продовжує до нуля.
Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
Xen1.5
Незважаючи на те, що я говорив вище, і як це може здатися, ультрависокий розмірний режим насправді не є абсолютно безнадійним (хоча він і близький), але для управління помилкою потрібні набагато більш складні методи, ніж просто максимум гауссових випадкових змінних. Необхідність використання цих складних прийомів є найвищим джерелом тієї складності, яку ви відзначаєте.
p,np=f(n)
Частина 3)
logpn
n,pn,p
Якщо вам зручно і бажаєте поглибитися в дослідницьку літературу, я би роздивився твори Джаньцзіна Фана і Джінчі Льва, які зробили більшість фундаментальних робіт над надвимірними проблемами. ("Скринінг" - це хороший термін для пошуку)
[F1] Насправді, будь-яка підгаузька випадкова величина, але це не дуже додає до цієї дискусії.
sns=g(n)
[F3] Т. Хасті, Р. Тібшірані та М. Вайнрайт. Статистичне навчання з рідкістю. Монографії зі статистики та прикладної ймовірності 143. CRC Press, 2015. Доступний для безкоштовного завантаження на веб- сайті https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Пітер Дж. Біккель, Яаков Ритов та Олександр Б. Цибаков. "Одночасний аналіз селектора Лассо та Данцига". Літописи статистики 37 (4), с. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620