EDIT: Трагедія! Мої початкові припущення були невірними! (Або, принаймні, сумніваєтесь - чи довіряєте ви тому, що продавець розповідає? Все-таки, підказка Мортену, також.) Я думаю, що це ще одне добре введення в статистику, але Частковий підхід до листа тепер додається нижче ( оскільки людям, здавалося, подобається цілий лист, і, можливо, хтось все-таки знайде це корисним).
Перш за все, велика проблема. Але я хотів би зробити це трохи складніше.
Через це, перш ніж зробити це, дозвольте мені зробити це трохи простішим і скажу - метод, який ви зараз використовуєте, цілком розумний . Це дешево, легко, це має сенс. Тож якщо вам доведеться дотримуватися цього, ви не повинні почувати себе погано. Просто переконайтеся, що ви вибираєте свої пакети випадковим чином. І, якщо ви можете просто достовірно зважити все (капелюх до кінця та user777), тоді вам слід це зробити.
Причина, чому я хочу зробити це трохи складніше, це те, що ви вже маєте - ви просто не сказали нам про все складне, що полягає в тому, що - підрахунок займає час, і час теж гроші . Але як багато ? Можливо, насправді дешевше рахувати все!
Тож те, що ти насправді робиш, - це врівноважувати час, який потрібно підрахувати, та кількість грошей, яку ти економиш. (ЯКЩО, звичайно, ви граєте в цю гру лише один раз. У наступний раз у вас це станеться з продавцем, вони, можливо, наздогнали і спробували новий трюк. В теорії ігор це різниця між Single Shot Games і Iterated Ігри. Але наразі зробимо вигляд, що продавець завжди зробить те саме.)
Ще одна річ, перш ніж я дістатись до оцінки. (І, вибачте, що написали так багато і досі не отримали відповіді, але тоді, це досить гарна відповідь на те, що би зробив статистик? Вони витратили б величезну кількість часу, щоб переконатися, що вони зрозуміли кожну крихітну частину проблеми перш ніж їм було зручно говорити про це.) І ця річ - це розуміння, засноване на наступному:
(РЕДАКТУЙТЕ: ЯКЩО ВИСТУПЛЯЄТЬСЯ РОЗВИТКУ ...) Ваш продавець не економить гроші, видаляючи етикетки - вони економить гроші, не друкуючи аркуші. Вони не можуть продати ваші етикетки комусь іншому (я припускаю). І, може, я не знаю і не знаю, якщо ви це робите, вони не можуть надрукувати половину аркуша вашої речі і половину аркуша когось іншого. Іншими словами, перш ніж ви навіть почали рахувати, ви можете припустити, що загальна кількість міток є або 9000, 9100, ... 9900, or 10,000
. Ось так я до цього підходжу.
Метод цілого листа
Коли проблема трохи складна, як ця (дискретна та обмежена), багато статистиків змоделюють, що може статися. Ось що я імітував:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Це дає вам, припускаючи, що вони використовують цілі аркуші, і ваші припущення правильні, можливий розподіл ваших міток (мовою програмування R).
Тоді я зробив це:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Це виявляє, використовуючи метод "завантажувального", довірчі інтервали, використовуючи 4, 5, ... 20 зразків. Іншими словами, якби в середньому ви використовували N зразків, наскільки великим буде ваш довірчий інтервал? Я використовую це для пошуку інтервалу, який є досить малим, щоб визначити кількість аркушів, і це моя відповідь.
Під "досить малим" я маю на увазі мій 95% довірчий інтервал у ньому лише одне ціле число - наприклад, якщо мій довірчий інтервал був від [93.1, 94.7], то я вибрав би 94 як правильну кількість аркушів, оскільки ми знаємо це ціле число.
ІНШІ складності, хоча - ваша впевненість залежить від істини . Якщо у вас 90 аркушів, а на кожній купі 90 ярликів, ви сходитеся дуже швидко. Те саме зі 100 аркушами. Тож я переглянув 95 аркушів, де існує найбільша невизначеність, і виявив, що для впевненості в 95% потрібно в середньому близько 15 зразків. Скажімо, загалом ви хочете взяти 15 зразків, тому що ніколи не знаєте, що там насправді.
ПІСЛЯ ви знаєте, скільки зразків вам потрібно, ви знаєте, що ваші очікувані заощадження:
100Nmissing−15c
c500−15∗
Але ви також повинні звинуватити хлопця за те, що ви змусили вас виконувати всю цю роботу!
(РЕДАКЦІЯ: ДОБАВЛЕНО!) Частковий підхід до листа
Гаразд, тож давайте припустимо, що виробник говорить, що це правда, і це не навмисно - на кожному аркуші просто втрачається кілька етикеток. Ви все ще хочете знати, про скільки міток, загалом?
Ця проблема відрізняється тим, що у вас більше немає приємного чистого рішення, яке ви можете прийняти - це було перевагою перед припущенням усього листа. Раніше було лише 11 можливих відповідей - зараз їх 1100, і отримання 95-відсоткового довірчого інтервалу на те, скільки саме міток існує, ймовірно, потрібно взяти набагато більше зразків, ніж ви хочете. Отже, давайте подивимось, чи можемо ми подумати про це по-іншому.
Оскільки це дійсно стосується того, що ви приймаєте рішення, нам все одно не вистачає декількох параметрів - скільки грошей ви готові втратити за одну угоду і скільки грошей коштує, щоб порахувати одну купу. Але дозвольте мені встановити, що ви могли зробити, з цими номерами.
Знову моделюючи (хоча реквізит до користувача777, якщо ви можете це зробити без!), Корисно переглянути розмір інтервалів при використанні різної кількості зразків. Це можна зробити так:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Що передбачає (цього разу), що кожен стек має рівномірну кількість міток між 90 і 100, і дає вам:
Звичайно, якби справи були справді такими, як їх моделювали, справжня середня величина становила б близько 95 зразків на стек, що нижче, ніж уявляється правда - це один із аргументів насправді для байєсівського підходу. Але це дає корисне відчуття того, наскільки більш впевненим ви ставитесь щодо своєї відповіді, продовжуючи вибірку, - і тепер ви можете явно торгувати витратами на вибірку будь-якою угодою, з якою ви приймете ціни.
Якого я знаю на даний момент, нам всі дуже цікаво почути.