Поширення ваших даних не повинно бути нормальним, а вибіркове розподіл має бути майже нормальним. Якщо розмір вибірки досить великий, то розподіл вибірки засобів з розподілу Ландау повинен бути майже нормальним, завдяки теоремі про центральний межа .
Тож це означає, що ви повинні мати можливість безпечно використовувати t-test зі своїми даними.
Приклад
Розглянемо цей приклад: припустимо, у нас є популяція з лонормальним розподілом з mu = 0 і sd = 0,5 (це виглядає трохи схоже на Ландау)
Таким чином, ми вибираємо 30 спостережень 5000 разів з цього розподілу кожен раз, обчислюючи середнє значення вибірки
І це ми отримуємо
Виглядає цілком нормально, чи не так? Якщо ми збільшимо розмір вибірки, це ще очевидніше
R код
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))