Скільки заплатити? Практична проблема


66

Це не питання домашньої роботи, а реальна проблема, з якою стикається наша компанія.

Зовсім недавно (2 дні тому) ми замовили виготовлення 10000 етикеток продукції у дилера. Дилер - незалежна людина. Він отримує етикетки, виготовлені ззовні, і компанія здійснює оплату продавцю. Кожна етикетка коштувала компанії рівно $ 1.

Вчора дилер прийшов з етикетками, але етикетки були зібрані в пакет по 100 етикеток кожен. Таким чином було всього 100 пакетів, і кожен пакет містив 100 міток, тому всього 10000 міток. Перш ніж здійснити оплату дилеру в розмірі 10000 доларів, ми вирішили порахувати кілька пакетів, щоб переконатися, що кожен пакет точно містить 100 міток. Коли ми підраховували мітки, ми виявили пакет із 100 мітками (ми знайшли 97 міток). Щоб переконатися, що це не випадково, але це було зроблено навмисно, ми нарахували ще 5 пакетів і виявили наступну кількість міток у кожному пакеті (включаючи перший пакет):

Packet Number    Number of labels
1                97 
2                98  
3                96
4                100
5                95 
6                97  

Підрахувати кожен пакет не вдалося, тому ми вирішили здійснити оплату в середньому. Отже, середня кількість етикеток у шести пакетах становить 97,166, тому загальна сума оплати була вирішена $ 9716.

Я просто хочу знати, як статистик повинен мати справу з таким типом проблеми .
Далі я хочу знати, скільки ми повинні заплатити, щоб отримати 95% впевненості, що ми не заплатили більше фактичної кількості цілих етикеток.

Додаткова інформація:

P (будь-який пакет, що містить більше 100 міток) = 0
P (будь-який пакет, що містить мітку менше 90) = 0 {мітки менше 90, будуть легко виявлені під час підрахунку пакетів, тому що пакет матиме меншу вагу}


EDIT: Дилер просто заперечував подібні недобросовісні дії. Ми виявили, що ці дилерські роботи працюють за певною комісією, яку вони отримують від виробника за те, що сплачує компанія. Коли ми спілкувалися безпосередньо з виробником, ми виявили, що це не вина, ані виробника. Виробник сказав: "Етикетки стають короткими, оскільки аркуші не стандартизовані за розміром , і яка б кількість не була вирізана з одного аркуша, вони збирають їх у пакет".

Далі ми підтверджуємо наше перше твердження, подане в додатковій інформації, оскільки виробник визнав, що від незначного збільшення розміру аркуша неможливо вирізати додаткові етикетки, також, від граничного зменшення розміру аркуша неможливо вирізати 100 етикеток точно такого ж розміру.


7
+1 (1) Як ви можете обґрунтувати перше твердження в розділі "додаткова інформація"? (2) Наскільки точно можна зважити пакети?
whuber

15
Англія та Ісаак Ньютон зіткнулися з цією ж проблемою 300 років тому. (Ставки були дещо більшими, тому що "етикетки", про які йдеться, були карбованими монетами.) Тому ви можете сподобатися читати рахунок Стівена Стіглера про випробування Pyx на stat.wisc.edu/sites/default/files/TR442_0.pdf .
whuber

7
@Neeraj Якщо ваги всіх предметів узгоджуються, чому б не просто зважити всю доставку?
Відновіть Моніку

9
Запропонуйте заплатити 9000 доларів і зачекайте, коли вони скажуть "Але ми лише скоротили вам 600, а не 1000"
Дін Макгрегор

5
Окрім чудового запитання щодо статистики, +1, я хотів поділитися більш прямою порадою з багатьох років у поліграфічній справі: всі належні, професійні принтери мають політику перевищення / недооцінки, як це, тому що більшість принтерів не пропонують точну кількість все, що не використовує "нумерацію" (окремі серійні номери). Але вони повинні мати відмінний підрахунок того, що вони вам дали, і якщо скорочений, ви знижете його, якщо більше ніж незначне (скажімо, 5%). Стягнення повної ціни за відомі недоліки НЕ є стандартною політикою.
BrianH

Відповіді:


20

Мені було б цікаво відгукуватись про абзац, що починається "Після роздумів ...", оскільки конкретна частина моделі підтримує мене вночі.

Байєсова модель

Переглянуте питання змушує мене думати, що ми можемо чітко розробляти модель, не використовуючи моделювання. Моделювання ввело додаткову мінливість через властиву випадковості вибірки. Відповідь софологів - це чудово.

Припущення : найменша кількість етикеток на конверті - 90, а найбільша - 100.

Отже, найменша можлива кількість міток - 9000 + 7 + 8 + 6 + 10 + 5 + 7 = 9043 (за даними ОП), 9000 за рахунок нижньої межі та додаткових міток, що надходять із спостережуваних даних.

YiiXiX=Y90X{0,1,2,...,10}npX0,1,2,3,...,n.n=10XpXiBinomial(10,p).

(Після роздуму, припущення про незалежність / біноміальна модель, мабуть, є дивним припущенням, оскільки воно фактично фіксує склад аркушів принтера, щоб вони були немодальними, і дані можуть лише змінити розташування режиму, але модель ніколи не визнає Наприклад, в альтернативній моделі можливий лише принтермає листи розмірами 97, 98, 96, 100 і 95: це задовольняє всім заявленим обмеженням, і дані не виключають цієї можливості. Можливо, буде доцільніше розглядати розмір кожного аркуша як власну категорію, а потім підходити до даних Діріхле-мультиноміальної моделі. Я цього не роблю, тому що дані настільки обмежені, тому задні ймовірності для кожної з 11 категорій будуть дуже сильно впливати на попередню. З іншого боку, пристосовуючи більш просту модель, ми також звужуємо види висновків, які ми можемо зробити.)

iXpiXiBinomial(60,p).

pppBeta(1,1).Якщо ви не вважаєте, що ця бета-версія раніше є розумною, рівномірний попередній може бути замінений іншим бета-версією раніше, і математика навіть не збільшиться у складності!

ppBeta(1+43,1+17)p940ZZBB(44,18,940).

введіть тут опис зображення

ZDD=9043+ZZD

Який підходящий спосіб розглянути ціни на партію?

[9596,9812]D

Мені невідома кількісна функція для розподілу бета-бінома в R, тому я написав власну, використовуючи кореневу знаходження R.

qbetabinom.ab <- function(p, size, shape1, shape2){
    tmpFn <- function(x) pbetabinom.ab(x, size=size, shape1=shape1, shape2=shape2)-p
    q <- uniroot(f=tmpFn, interval=c(0,size))
    return(q$root)
}

DE(D)=E(9043+Z)=E(Z)+9043.E(Z)=nαα+β=667.0968E(D)=9710.097,

D

(Звичайно, той факт, що продавець прийняв угоду, говорить нам про те, що він має негативні реальні збитки ... Я не придумав способу використовувати цю інформацію, щоб ми могли точніше визначити, наскільки вас обдурили, окрім зауваження. тому, що він прийняв пропозицію, ви в кращому випадку зламалися.)

Порівняння завантажувального пристрою

У нас є лише 6 спостережень для роботи. Обґрунтування завантажувальної програми є асимптотичним, тому давайте розглянемо, як виглядають результати на нашому маленькому зразку. Цей графік показує щільність моделювання завантаження. введіть тут опис зображення

"Пухнастий" візерунок - артефакт невеликого розміру зразка. Включення або виключення будь-якого одного пункту матиме драматичний вплив на середню величину, створюючи цей "рясний" вигляд. Байєсівський підхід згладжує ці скупчення і, на мою думку, є більш правдоподібним портретом того, що відбувається. Вертикальні лінії являють собою 5% квантилів.


це чудова відповідь. Ви надали нове розуміння, штрафуючи за ризик. Спасибі
Neeraj

1
Я був щасливий, коли дізнався, що очікувані збитки становлять лише 6 доларів. :-) Ще раз дякую за чудове запитання.
Відновіть Моніку

1
np0,1,2,3,....,n.n=10Xp
Відновіть Моніку

1
0,1,2,3,...101,102,103,...,1061060X10


20

EDIT: Трагедія! Мої початкові припущення були невірними! (Або, принаймні, сумніваєтесь - чи довіряєте ви тому, що продавець розповідає? Все-таки, підказка Мортену, також.) Я думаю, що це ще одне добре введення в статистику, але Частковий підхід до листа тепер додається нижче ( оскільки людям, здавалося, подобається цілий лист, і, можливо, хтось все-таки знайде це корисним).

Перш за все, велика проблема. Але я хотів би зробити це трохи складніше.

Через це, перш ніж зробити це, дозвольте мені зробити це трохи простішим і скажу - метод, який ви зараз використовуєте, цілком розумний . Це дешево, легко, це має сенс. Тож якщо вам доведеться дотримуватися цього, ви не повинні почувати себе погано. Просто переконайтеся, що ви вибираєте свої пакети випадковим чином. І, якщо ви можете просто достовірно зважити все (капелюх до кінця та user777), тоді вам слід це зробити.

Причина, чому я хочу зробити це трохи складніше, це те, що ви вже маєте - ви просто не сказали нам про все складне, що полягає в тому, що - підрахунок займає час, і час теж гроші . Але як багато ? Можливо, насправді дешевше рахувати все!

Тож те, що ти насправді робиш, - це врівноважувати час, який потрібно підрахувати, та кількість грошей, яку ти економиш. (ЯКЩО, звичайно, ви граєте в цю гру лише один раз. У наступний раз у вас це станеться з продавцем, вони, можливо, наздогнали і спробували новий трюк. В теорії ігор це різниця між Single Shot Games і Iterated Ігри. Але наразі зробимо вигляд, що продавець завжди зробить те саме.)

Ще одна річ, перш ніж я дістатись до оцінки. (І, вибачте, що написали так багато і досі не отримали відповіді, але тоді, це досить гарна відповідь на те, що би зробив статистик? Вони витратили б величезну кількість часу, щоб переконатися, що вони зрозуміли кожну крихітну частину проблеми перш ніж їм було зручно говорити про це.) І ця річ - це розуміння, засноване на наступному:

(РЕДАКТУЙТЕ: ЯКЩО ВИСТУПЛЯЄТЬСЯ РОЗВИТКУ ...) Ваш продавець не економить гроші, видаляючи етикетки - вони економить гроші, не друкуючи аркуші. Вони не можуть продати ваші етикетки комусь іншому (я припускаю). І, може, я не знаю і не знаю, якщо ви це робите, вони не можуть надрукувати половину аркуша вашої речі і половину аркуша когось іншого. Іншими словами, перш ніж ви навіть почали рахувати, ви можете припустити, що загальна кількість міток є або 9000, 9100, ... 9900, or 10,000. Ось так я до цього підходжу.

Метод цілого листа

Коли проблема трохи складна, як ця (дискретна та обмежена), багато статистиків змоделюють, що може статися. Ось що я імітував:

# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
    bucket <- sample(which(stacks!=100),1)
    stacks[bucket] <- stacks[bucket] + 1
}

Це дає вам, припускаючи, що вони використовують цілі аркуші, і ваші припущення правильні, можливий розподіл ваших міток (мовою програмування R).

Тоді я зробив це:

alpha = 0.05/2
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}

Це виявляє, використовуючи метод "завантажувального", довірчі інтервали, використовуючи 4, 5, ... 20 зразків. Іншими словами, якби в середньому ви використовували N зразків, наскільки великим буде ваш довірчий інтервал? Я використовую це для пошуку інтервалу, який є досить малим, щоб визначити кількість аркушів, і це моя відповідь.

Під "досить малим" я маю на увазі мій 95% довірчий інтервал у ньому лише одне ціле число - наприклад, якщо мій довірчий інтервал був від [93.1, 94.7], то я вибрав би 94 як правильну кількість аркушів, оскільки ми знаємо це ціле число.

ІНШІ складності, хоча - ваша впевненість залежить від істини . Якщо у вас 90 аркушів, а на кожній купі 90 ярликів, ви сходитеся дуже швидко. Те саме зі 100 аркушами. Тож я переглянув 95 аркушів, де існує найбільша невизначеність, і виявив, що для впевненості в 95% потрібно в середньому близько 15 зразків. Скажімо, загалом ви хочете взяти 15 зразків, тому що ніколи не знаєте, що там насправді.

ПІСЛЯ ви знаєте, скільки зразків вам потрібно, ви знаєте, що ваші очікувані заощадження:

100Nmissing15c

c50015

Але ви також повинні звинуватити хлопця за те, що ви змусили вас виконувати всю цю роботу!

(РЕДАКЦІЯ: ДОБАВЛЕНО!) Частковий підхід до листа

Гаразд, тож давайте припустимо, що виробник говорить, що це правда, і це не навмисно - на кожному аркуші просто втрачається кілька етикеток. Ви все ще хочете знати, про скільки міток, загалом?

Ця проблема відрізняється тим, що у вас більше немає приємного чистого рішення, яке ви можете прийняти - це було перевагою перед припущенням усього листа. Раніше було лише 11 можливих відповідей - зараз їх 1100, і отримання 95-відсоткового довірчого інтервалу на те, скільки саме міток існує, ймовірно, потрібно взяти набагато більше зразків, ніж ви хочете. Отже, давайте подивимось, чи можемо ми подумати про це по-іншому.

Оскільки це дійсно стосується того, що ви приймаєте рішення, нам все одно не вистачає декількох параметрів - скільки грошей ви готові втратити за одну угоду і скільки грошей коштує, щоб порахувати одну купу. Але дозвольте мені встановити, що ви могли зробити, з цими номерами.

Знову моделюючи (хоча реквізит до користувача777, якщо ви можете це зробити без!), Корисно переглянути розмір інтервалів при використанні різної кількості зразків. Це можна зробити так:

stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
    s <- replicate(1000, mean(sample(stacks, i)))
    q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])

Що передбачає (цього разу), що кожен стек має рівномірну кількість міток між 90 і 100, і дає вам:

Обмежується інтервалами довіри за кількістю проб

Звичайно, якби справи були справді такими, як їх моделювали, справжня середня величина становила б близько 95 зразків на стек, що нижче, ніж уявляється правда - це один із аргументів насправді для байєсівського підходу. Але це дає корисне відчуття того, наскільки більш впевненим ви ставитесь щодо своєї відповіді, продовжуючи вибірку, - і тепер ви можете явно торгувати витратами на вибірку будь-якою угодою, з якою ви приймете ціни.

Якого я знаю на даний момент, нам всі дуже цікаво почути.


6
+1 Цей аналіз прямо та творчо вирішує питання: як би (хороший) статистик поставився до проблеми? Орієнтація на кількість аркушів - цінне розуміння.
whuber

1
Підхід співвідношення витрат і вигод - чудова ідея. Вже я б сказав, що колективна людина * години мозкових сил, присвячених цій проблемі, перевищила економію $ 284 від n = 6 вибірки, яку використовував Neeraj. :)
RobertF

1
Гарна відповідь. Як ви це зашифрували в даний момент, коли принтер збирає повний стос, він просто скидає зайву етикетку на землю, що, можливо, є розумним. Але якщо ви хочете мати 9000,9100...10000загальні мітки в кінці, ви можете замінити свою if на логіку, bucket <- sample(which(stacks!=100),1)а потім завжди збільшувати стек.
Адам С

1
Ах, щойно я помітив це! Дякую за улов. Однозначно помилка.
one_observation

1
Як ви обчислюєте довірчі інтервали? Використовуєте завантажувальний інструмент?
RobertF

3

Це досить обмежений зразок. (Фрагменти коду є R)

> sample <- c(97,98,96,100,95,97)

Для початкової здогадки про очікувану кількість у загальній чисельності населення та 95-відсоткове значення довіри за ціною, ми можемо почати із середнього та 5-відсоткового квантилу

> 100*mean(sample)
[1] 9716.667
> 100*quantile(sample,0.05)
  5% 
9525 

Щоб піти далі, нам доведеться створити теоретичну модель і зробити додаткові припущення. Існує кілька джерел невизначеності при відтворенні - (1) невизначеність функціональної форми моделі заповнення пакетів, (2) невизначеність в оцінці параметрів моделі та (3) помилка вибірки.

pn=100p

> n <- 100
> (p<-1-mean(sample)/100)
[1] 0.02833333

n100np10

> (lambda <- n*p)
[1] 2.833333

λ=lambda

> var(sample)
[1] 2.966667

λr=100*lambda

> 100*100-100*lambda
[1] 9716.667
> 100*100-qpois(0.95,100*lambda)
[1] 9689

ppαβαβα=1β=0

α=1+583β=0+17

αβαβ

Тепер, якщо припустити, що кожен пакет заповнюється незалежно, ми можемо розглядати всю скриньку пакетів як 10000 незалежних подій, а не 100 подій з 100 підрядів. Отже, середнє значення становить 9717,138 при стандартному відхиленні 69,57153. Використовуючи функцію розподілу, ви можете обчислити 95% -ве достовірне число приблизно 9593. Я використовував пакет R VGAMдля його *betabinom.abфункцій.

Отже, невизначеність оцінюваного параметра знижує 95-відсоткову ціну довіри майже на 100, і ми підходимо досить близько до нашого початкового простого наближення.

Незалежно від підходу чи моделі, для підтвердження моделі можуть використовуватися додаткові дані, тобто бачити, що додаткові дані є розумними за теоретичною моделлю, чи коригуються коригування чи нова модель. Процес моделювання схожий на науковий метод.


2

У першу чергу, моїм першим схильністю було б обчислити 95% довірчий інтервал для середньої вибірки для усіленого нормального розподілу, що падає між нижньою та верхньою межею 90 та 100 міток.

Пакет R truncnormдозволяє знайти довірчі інтервали для усіченого нормального розподілу із заданим середнім значенням вибірки, стандартним відхиленням вибірки, нижньою межею та верхньою межею.

Оскільки ви берете вибірку n = 5 із відносно невеликої сукупності (N = 100), ви, можливо, захочете помножити стандартне відхилення вибірки на кінцевий коефіцієнт популяції = [(Nn) / (N-1)] ^. 5 = 0,98.


5
Цікаво, чи варті додаткові ускладнення при прийомі усіченої Нормальної - або навіть дійсні - враховуючи, що підрахунки дискретні і можуть приймати лише невелику кількість можливих значень.
whuber

@whuber - Правда, але довірчий інтервал перевищує розподіл середньої вибірки, що є суцільною величиною. Замість того, щоб використовувати 95% довірчий інтервал, можливо, кращим вибором було б знайти площу під розподілом між дискретними величинами, скажімо, 93 та 99.
RobertF

Для роботи з середньою вибіркою вам не потрібна усічена Нормальна. Це виглядає як зайве ускладнення.
whuber

1
CLT не стверджує, що все буде слідувати усіченому нормальному розподілу. Запуск завантажень, ймовірно, буде проблематичним, оскільки він покладається на асимптотичні результати для своєї дійсності.
whuber

1
Оскільки стандартне відхилення середнього швидко стає набагато меншим, ніж діапазон, усічення практично не має значення. Ми говоримо про практичне рішення, яке не ускладнюється зайвими та, можливо, відволікаючими деталями.
whuber

2

Швидкий і простий підхід полягає в тому, щоб розглянути всі можливі повторні вибірки розміром 6. Існує лише 15 625 перестановок. Переглядаючи ці дані та беручи середнє значення для кожного випадку, а потім сортуючи середні показники та дістаючи 5-відсотковий квантил, ми отримуємо значення 96.

Тож орієнтовна сума, яку ви повинні бути готові заплатити, становить приблизно 9600. Це добре узгоджується з парою більш складних підходів.

Поліпшенням тут було б моделювати велику кількість зразків розміром 6 та використовувати ту саму процедуру для пошуку 5-го перцентиля вибіркового засобу. Використовуючи трохи більше мільйона повторних проб, я виявив, що 5-й перцентиль становив 96,1667, тож до найближчого долара оплата становила б 9617 доларів, що є лише на 2 долари різницею від результату 9677 користувача 777.


1
Чи можете ви пояснити, чому це відповідна відповідь на те, скільки потрібно заплатити? Чому, наприклад, не використати середнє значення для вибірки?
whuber

Ви б скористалися зразком середнього значення, якби хочете здійснити платіж, який співпадає з кількістю міток, на вашу думку. Але запитуючий запитував 95% впевненості, що він не платить більше етикеток, ніж було зроблено. Таким чином, ми отримуємо уявлення про розподіл середньої вибірки для зразків розміром 6 та використовуємо 5-й перцентиль.
soakley

1
Було б добре включити це пояснення у свою відповідь. Ви можете також розглянути пояснення, чому ви вважаєте, що ця процедура перекомпонування насправді створює дійсний або надійний межа довіри. Хоча це можна зробити з багатьма великими наборами даних, варто подумати, чи можна його використовувати таким же чином з таким невеликим набором даних.
whuber

0

Здається, ви вже зробили висновок, що помилка була зроблена навмисно, але статистик не прискорився б до таких висновків (хоча, мабуть, дані підтверджують це).

Можна поставити це як тест гіпотези:

Н0: Дилер чесний, але досить неохайний

Н1: Дилер шахрайський, а недолік - навмисний.

Припустимо H0, то кожне відхилення є випадковою подією із середнім = 0 та рівним шансом бути позитивним чи негативним. Давайте припустимо, що відхилення зазвичай розподіляються. Стандартне відхилення для нормального розподілу на основі відхилень у 6 точках даних sd = 1,722

Якщо статистик не запам’ятав свою теорію дуже добре, але R мав поруч (це малоймовірний сценарій), він / вона може написати наступний код, щоб перевірити ймовірність отримання жодних позитивних відхилень (без пакунків більше 100), якщо H0 є правда.

numpackages=c(97,98,96,100,95,97)
error<-100-numpackages
errorStdev<-sd(error)
numSimulations<-1000000
max100orLes<-0
for(p in 1:numSimulations)
{
  simulatedError<-rnorm(6,mean=0,sd=errorStdev)

  packageDeviations<-round(simulatedError)

  maxValue<-max(packageDeviations)
  if(maxValue<=0)
  {
    max100orLes<-max100orLes+1
  }   
}
probH0<-100*max100orLes/numSimulations
cat("The probability the H0 is correct is:",probH0,"%")

Результатом моделювання є:

The probability the H0 is correct is: 5.3471 %

Ймовірність того, що дилер стане чесним, становить лише 5,35%, і тому цілком ймовірно, що ви стали жертвою шахрайства.

Оскільки ви говорите, що це не питання домашнього завдання, а реальна ситуація для вашої компанії, то це перестає бути вправою для обчислення правильних очікуваних цифр, але натомість це складний випадок, як поводитися з нечесним постачальником.

Що ви робите звідси, насправді не можна відповісти лише однією статистикою. Це дуже залежить від ваших важелів і відносин з дилером.

Удачі !

Мортен Бунес Густавсен


1
17/61.72/60.7017/6/0.704.01000.00003

невдача - це завжди варіант, тому я, можливо, помилився ... проте мої розрахунки документально зафіксовані в наданому кодом R, тому не повинно виникати жодних причин дивуватися, як я отримав результат. Так, гіпотеза H0 в моєму випадку полягає в тому, що дилер чесний, і тоді відхилення були б випадковими коливаннями із середнім значенням на 100. Стдев в моєму розрахунку - це лише Stdev серії (-3, -2, -4, 0, -5, -3), що є відхиленням від 100 у кожній упаковці.
Мортен Бунес Густавсен

Я справді просто використовую це нормальне відхилення і малюю 6 зразків, і перевіряю, чи жодна з них не перевищує 0. Я запускаю симуляцію в 1000 000 разів і сполучається, скільки разів мені так не пощастило отримати зразок вище 0. Це виявляється в 5,35% випадків. Я вибираю такий кут, що в цьому питанні прямо сказано, що це реальна ситуація (тобто не академічна вправа), і що він / вона хотів би знати, що робитиме статистик у цьому випадку.
Мортен Бунес Густавсен

3
У запитанні також було зазначено, що немає шансів підрахувати більше 100 міток у пакеті. Незалежно від того, що ви зробили, - це широке моделювання чисел, схожих на дані - але що, якщо що, це стосується питання ("скільки ми повинні платити"), є незрозумілим.
whuber

-2

Як щодо щось на зразок багаточленної моделі.

Пробність кожного результату оцінюється як 1/6, 1/6, .... (на основі 6 спостережень) і так E (x) = 97.16 і Var (x) = сума (95 ^ 2 * 1/6 + ...) - E (x) ^ 2 = 2,47, тож 95% ДІ було б [94, 100]


3
Це взагалі не здається мультиноміальним: ваш ІП здається інтервалом нормальної теорії, використовуючи некоректовану формулу для дисперсії. Крім того, як це відповідає на питання про те, скільки платити?
whuber

мультиномій застосовується до результату, тобто 95, 96, 97 ... 100, і так, CI - це нормальна теорія, тому що xe (x) / sd ~ N. скільки платити було б так само, як очікування, так що це 97.16 * 100
Сін

4
Чи помітили ви, що ви не використовуєте мультиноміальне припущення взагалі? Ваш ІС занадто короткий, як WS Gosset зауважив у 1908 р. Але якщо ви збираєтесь базувати свою рекомендацію лише на середньому рівні вибірки, навіщо обчислювати ІП?
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.