Коли дані мають гаусовий розподіл, скільки зразків буде характеризувати їх?


12

Для гауссових даних, що поширюються в одному вимірі, потрібні два параметри для їх характеристики (середня величина, дисперсія), і подейкують, що для оцінювання цих параметрів з достатньо високою достовірністю зазвичай вистачає приблизно 30 випадково вибраних зразків. Але що відбувається, коли кількість розмірів збільшується?

У двох вимірах (наприклад, висота, вага) потрібно 5 параметрів, щоб вказати еліпс "найкраще". У трьох вимірах це піднімається до 9 параметрів для опису еліпсоїда, а в 4-D він займає 14 параметрів. Мені цікаво дізнатись, чи збільшується кількість зразків, необхідних для оцінки цих параметрів, із порівнянною швидкістю, з меншою швидкістю або (будь ласка, ні!) З більшою швидкістю. Ще краще, якби існувало загальноприйняте правило, яке припускає, скільки зразків потрібно для характеристики гауссового розподілу в заданій кількості вимірів, було б добре знати.

Якщо точніше сказати, припустимо, ми хочемо визначити симетричну межу "найкращого пристосування", зосереджену в середній точці, всередині якої ми можемо бути впевнені, що 95% усіх зразків впаде. Я хочу знати, скільки зразків може знадобитися, щоб знайти параметри для наближення цієї межі (інтервал в 1-D, еліпс у 2-D тощо) з відповідно високою (> 95%) впевненістю, і як це число змінюється залежно від кількість розмірів збільшується.


3
Не маючи достатньо точного визначення поняття «прив’язати», відповісти на це запитання не можна навіть для однозначного Гаусса.
Glen_b -Встановити Моніку

1
Як щодо: скільки зразків потрібно, щоб бути принаймні 95% впевненими, що 95% усіх зразків (але лише 95% усіх зразків) будуть лежати протягом визначеного інтервалу / еліпс / еліпсоїд / гіпереліпсоїд?
оматай

1
Тобто 95% всіх проб лежатимуть на певній відстані середньої відстані. Скільки зразків потрібно для визначення цієї відстані (інтервал / еліпс / еліпсоїд / тощо) з 95% або кращою впевненістю?
оматай

1
Як тільки у вас з’явиться ще одне незалежне значення даних, ніж є параметри (звідки значення у вимірах), ви можете встановити навколо них 95% довіру. (Можна зробити ще краще, використовуючи нетрадиційні прийоми .) Це відповідь - це остаточний варіант - але, мабуть, це не те, що ви шукаєте. Справа в тому, що для отримання відповіді на це питання вам потрібно встановити деяку абсолютну шкалу бажаної точності. (d+22)d
whuber

1
Snedecor & Cochran [ Статистичні методи , 8-е видання] є владою щодо вибірки. Вони описують цей процес у розділах 4 та 6: "Спочатку ми припускаємо, що стандартне відхилення населення ... відоме". Пізніше вони пишуть: "Таким чином, метод є найбільш корисним на ранніх етапах роботи. Наприклад, попередні невеликі експерименти показали, що нове лікування дає збільшення приблизно на 20%, а становить близько 7% . Дослідник ... [хоче] SE на 2% і таким чином встановлює , даючи ... Це ... часто допомагає у подальшій роботі. σ ± σDσ±n=252(7)/n=2n=25
whuber

Відповіді:


7

Кількість даних, необхідних для оцінки параметрів багатоваріантного нормального розподілу з заданою точністю до заданої достовірності, не змінюється залежно від розміру, всі інші речі однакові. Таким чином, ви можете застосувати будь-яке велике правило для двох вимірів для задач з вищими розмірами без будь-яких змін.

Навіщо це робити? Існує лише три види параметрів: засоби, дисперсії та коваріації. Похибка оцінки в середньому залежить лише від дисперсії та кількості даних, . Таким чином, коли має багатоваріантний нормальний розподіл і мають відхилення , то оцінки залежать лише від та . Звідси, для досягнення достатньої точності при оцінці всіх , нам потрібно тільки враховувати обсяг даних , необхідних для , що має найбільший з( X 1 , X 2 , , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in(X1,X2,,Xd)Xiσi2E[Xi]σinE[Xi]Xiσi. Тому, коли ми розглядаємо послідовність задач оцінки для збільшення розмірів , все, що нам потрібно врахувати, - це на скільки збільшиться найбільший . Коли ці параметри обмежуються вище, ми робимо висновок, що кількість необхідних даних не залежить від розмірності.dσi

Аналогічні міркування стосуються оцінки дисперсій та коваріацій : якщо певна кількість даних є достатньою для оцінки однієї коваріації (або коефіцієнта кореляції) до потрібної точності, то - за умови, що базовий нормальний розподіл має аналогічний значення параметрів - стільки ж даних буде достатньо для оцінки будь-якого коефіцієнта коваріації чи кореляції. σ i jσi2σij


Щоб проілюструвати та надати емпіричну підтримку цього аргументу, давайте вивчимо деякі симуляції. Далі створюються параметри для багатонармального розподілу заданих розмірів, витягується багато незалежних, однаково розподілених наборів векторів із цього розподілу, оцінюються параметри кожного такого зразка та підсумовуються результати оцінок цих параметрів у перерахунку на (1) їх середні значення - продемонструвати, що вони є неупередженими (і код працює правильно - і (2) їх стандартні відхилення, які кількісно оцінюють точність оцінок. (Не плутайте ці стандартні відхилення, які кількісно визначають величину варіації серед оцінок, отриманих за кратні ітерації моделювання із стандартними відхиленнями, які використовуються для визначення базового багатонармального розподілу!dd зміни, за умови, що в міру зміни, ми не вводимо більші відхилення в базовий багатонармальний розподіл.d

Розміри дисперсій базового розподілу регулюються в цьому моделюванні, зробивши найбільше власне значення матриці коваріації рівним . Це утримує щільність "хмари" ймовірностей у межах меж, коли розмірність збільшується, незалежно від форми цієї хмари. Моделювання інших моделей поведінки системи в міру збільшення розмірності може бути створене просто шляхом зміни способу генерування власних значень; один приклад (з використанням розподілу Gamma) показаний коментованим у коді нижче.1R

Що ми шукаємо, це перевірити, що стандартні відхилення оцінок параметрів помітно не змінюються при зміні розмірності . Тому я показую результати для двох крайнощів, і , використовуючи однаковий обсяг даних ( ) в обох випадках. Примітно, що кількість параметрів, оцінених при , що дорівнює , Значно перевищує кількість векторів ( ) і перевищує навіть окремі числа ( ) у всьому наборі даних.d = 2 d = 60 30 d = 60 1890 30 30 60 = 1800dd=2d=6030d=601890303060=1800

Почнемо з двох вимірів, . Існує п’ять параметрів: дві дисперсії (при стандартних відхиленнях і у цій симуляції), коваріація (SD = ) і два засоби (SD = і ). При різних моделюваннях (які можна отримати шляхом зміни початкового значення випадкового насіння) вони дещо відрізнятимуться, але вони постійно будуть порівнянними розмірами, коли розмір вибірки . Наприклад, у наступному моделюванні SD-файли - , , , і0,097 0,182 0,112 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18d=20.0970.1820.1260.110.15n=300.0140.2630.0430.040.18відповідно: всі вони змінилися, але мають порівнянні порядки.

(Ці твердження можна теоретично підтримати, але суть у цьому полягає в чисто емпіричній демонстрації.)

Тепер переходимо до , зберігаючи розмір вибірки на . Зокрема, це означає, що кожен зразок складається з векторів, кожен з яких має компонентів. Замість того, щоб перерахувати всі стандартних відхилень, давайте просто розглянемо їх зображення, використовуючи гістограми, щоб зобразити їхні діапазони.n = 30 30 60 1890d=60n=3030601890

Малюнок

Розсіювачі у верхньому рядку порівнюють фактичні параметри sigma( ) та ( ) із середніми оцінками, зробленими під час ітерацій у цьому моделюванні. Сірі опорні лінії позначають місце ідеальної рівності: чітко оцінки працюють за призначенням і неупередженими.μ 10 4σmuμ104

Гістограми відображаються в нижньому рядку, окремо для всіх записів в матриці коваріації (зліва) та для засобів (праворуч). СД окремих варіацій, як правило, лежить між і тоді як SD коваріацій між окремими компонентами лежать між і : саме в діапазоні, досягнутому при . Аналогічно, середні оцінки середньої оцінки лежать в межах від до , що можна порівняти з показниками, коли . Звичайно, немає ніяких ознак того, що SD збільшилися як0,12 0,04 0,08 d = 2 0,08 0,13 d = 2 d 2 600.080.120.040.08d=20.080.13d=2dподорожчала з до .260

Код наступним чином.

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean

1

Деякі короткі числові цифри дають наступні розподіли помилок для пристосування 30 зразків, створених із стандартного нормального розподілу, що підходять до одновимірного Гаусса.

введіть тут опис зображення

Квартілі вказані. Передбачається, що цей рівень варіації бажаний у багатовимірному випадку.

У мене немає часу, щоб перемогти MatLab, щоб отримати загальний результат, тому я поділюсь своїм "правилом". 30 надається як правило, або евристично, тому передбачається, що евристика не є неприйнятною.

Моє евристичне використання трикутника Паскаля, помноженого на одновимірний випадок. введіть тут опис зображення

Якщо я використовую 2d дані, то я переходжу до другого ряду і підсумовую їх, щоб отримати 2х кількість вибірок, або 60 зразків. Для 3d-даних я переходжу до 3-го ряду і підсумовую їх, щоб отримати 4 рази кількість зразків або 120 зразків. Для даних 5d я переходжу до 5-го ряду і підсумовую її, щоб отримати 16x кількість вибірок, або 480 вибірки.

Удачі.

Редагувати:

Це було інтуїтивно, але все треба захищати математикою. Я не можу просто скочуватися з формулювання поліноміальних форм з Кінцевих Елементів із досвідом, щоб отримати бальний парк.

Рівняння для суми ряду трикутника Паскаля дорівнює . 2 kkth2k

Моя ідея підходу тут полягає в тому, щоб прирівняти АПК більш розмірного розподілу з більшою кількістю вибірок до зменшеного розмірного розподілу з меншою кількістю вибірок.

Інформаційний критерій Akaike (AIC) визначається як де є залишковою сумою квадратів, - кількість зразків і - кількість параметрів для моделі . RSSnkAIC=nlog(RSSn)+2kRSSnk

AIC1=AIC2

n1log(RSS1n1)+2k1=n2log(RSS2n2)+2k2

Для кожного виміру, який ми усуваємо, це означає, що середнє значення втрачає рядок, а коваріація втрачає і рядок, і стовпець. Ми можемо констатувати це як

k(d)=d2+d .

з

k(d+1)k(d)=2d+2

Якщо припустити, що похибка в точці вибірки є постійною, відносить залишкову суму квадратів до кількості вибірки, а додаток у логарифмі залишається постійним. Різниця в кількості вибірки стає постійною шкалою.

тому у нас є:

n1A+2(k2+2d+2)=n2A+2k2

рішення для збільшення зразків з розмірністю дає:

n2n1=(2(k2+2d+2)2k2)A1=(4d+4)A1

То яка функція масштабування? Припустимо, що для двовимірної багатоваріантної Гаусса необхідна кількість зразків становить 15 на параметр. Існує 2 засоби та 4 елементи коваріації, тому 6 параметрів або 90 зразків. Різниця становить 60 проб, значення . A1=5

введіть тут опис зображення

На цьому етапі я б сказав, що евристика починається трохи низько, але закінчується приблизно в 2 рази. На мою особисту думку, його асортимент найкращої корисності становить близько 4 розмірів.

Редагувати:

Тому я прочитав відповідь @whuber і мені це подобається. Це емпірично, і в цьому випадку є авторитетним. Я проголосував за його відповідь.

У наступному я намагаюся обговорити і сподіваюсь використовувати більше ~ 300 символів, і я сподіваюся змогти вставляти фотографії. Тому я обговорюю в межах відповіді. Я сподіваюся, що це нормально.

На даний момент я не переконаний, що використання AIC для цього або те, як розмір вибірки та розміри параметрів використовувались, було неправильним.

Наступні кроки:

  • повторити результати @ whuber, підтвердити їх емпірично
  • Випробуйте AIC, принаймні, в якомусь ансамблевому сенсі, щоб підтвердити, чи він підходить
  • Якщо AIC підходить, то спробуйте використати емпіричні методи, щоб вгамувати недоліки в міркуванні.

Зауваження та пропозиції вітаються.


4
Чи можете ви надати якесь обгрунтування свого евристичного?
whuber

1
І ви могли б підтвердити, що сума 5-го ряду насправді 16?
оматай

1 + 4 + 6 + 4 + 1 = 1 + 10 + 5 = 16. Вибачте за це. 16 22. Я, мабуть, заснув, коли я додав.
EngrStudent

1
Як ви придумали для кількості параметрів? Це занадто багато. Наприклад, для компонентів потрібні лише параметри (для засобів, коваріацій і кореляцій). Це може пояснити, чому Ваша рекомендація вимагає такого надзвичайно високого розміру вибірки! d = 9 54 9 9 362d+12d=9549936
whuber

1
@whuber, я вважаю, що я дізнаюся більше на своїх помилках (після того, як я дізнаюся про них), ніж на моїй правильності. Як не дивно, але помилятися - це точно так само, як я маю рацію, доки я не знаю, що я помиляюся. Дякую. ted.com/talks/kathryn_schulz_on_being_wrong.html
EngrStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.