Єдиний спосіб дізнатися відмінність чисельності населення - це вимірювання всього населення.
Однак вимірювання цілого населення часто недоцільне; для цього потрібні ресурси, включаючи гроші, інструменти, персонал та доступ. З цієї причини ми відбираємо вибірки; тобто вимірювання підмножини населення. Процес відбору проб повинен бути розроблений ретельно та з метою створення вибіркової сукупності, яка є репрезентативною для населення; даючи два ключові міркування - розмір вибірки та методику відбору проб.
Приклад іграшки: Ви хочете оцінити відхилення у вазі для дорослого населення Швеції. Є десь 9,5 мільйонів шведів, тому малоймовірно, що ви зможете вийти і виміряти їх усіх. Тому потрібно виміряти вибіркову сукупність, за допомогою якої можна оцінити справжню дисперсію всередині населення.
Ви вирушаєте на вибірку населення Швеції. Для цього ви їдете і стоїте в центрі міста Стокгольма, і просто так трапляється біля популярної вигаданої шведської мережі гамбургерів Burger Kungen . Насправді дощ і холодно (повинно бути літо), тому ти стоїш всередині ресторану. Тут ви важите чотири людини.
Швидше за все, ваш зразок не буде дуже добре відображати населення Швеції. У вас є зразок людей у Стокгольмі, які перебувають у ресторані для гамбургерів. Це погана методика відбору проб, оскільки це може призвести до зміщення результату, не надаючи справедливого представлення населення, яке ви намагаєтеся оцінити. Крім того, у вас невеликий розмір вибірки, тож у вас є високий ризик забрати чотирьох людей, які перебувають у крайності населення; або дуже легкий, або дуже важкий. Якщо ви взяли вибірку на 1000 осіб, ви рідше викликаєте зміщення вибірки; набагато менше шансів вибрати 1000 людей, які незвичні, ніж вибрати чотирьох, які незвичайні. Більший розмір вибірки принаймні дасть точнішу оцінку середньої величини та різниці ваги серед клієнтів Burger Kungen.
Гістограма ілюструє ефект відбору проб, сірий розподіл може представляти населення Швеції, яке не їсть у Бургер-Кунген (середнє 85 кг), тоді як червоний може представляти популяцію споживачів Burger Kungen (в середньому 100 кг) , а сині тире можуть бути чотирма людьми, яких ви пробуєте. Правильна методика відбору проб повинна була б зважити чисельність населення, і в цьому випадку ~ 75% населення, таким чином 75% відміряних проб, не повинні бути замовниками Burger Kungen.
Це головне питання з великою кількістю опитувань. Наприклад, люди, які можуть відповісти на опитування задоволеності клієнтів або опитування думок на виборах, як правило, непропорційно представлені особами, які мають крайні погляди; люди з менш сильною думкою, як правило, більш стримано висловлюють їх.
Суть тестування гіпотез ( не завжди ), наприклад, у тестуванні, чи відрізняються дві групи один від одного. Наприклад, чи важать клієнти Burger Kungen більше, ніж шведи, які не їдять в Burger Kungen? Можливість точно перевірити це залежить від правильної методики відбору та достатнього розміру вибірки.
Код R для тестування робить це все:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Результати:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024