Оцініть масу фруктів у пакетику лише з суміжних підсумків?


9

Викладач мого університету поставив таке запитання (не для домашніх завдань, оскільки закінчився клас, і я не був у ньому). Я не можу зрозуміти, як підійти до цього.

Питання стосується 2 пакетиків, кожен з яких містить асортимент різних видів фруктів:

Перший мішок містить наступні випадково відібрані фрукти:

+ ------------- + -------- + --------- +
| діаметр см | маса г | гнилий? |
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104,93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117,72 | 0 |
| 7.19 | 128,63 | 0 |
+ ------------- + -------- + --------- +

Другий мішок містить 6 випадково відібраних фруктів з того ж магазину, що і перший мішок. Сума їх діаметрів - 64,2 см, 4 - гнилі.

Дайте оцінку на масу другого мішка.

Я бачу, що, здається, є два різних фрукти з нормально розподіленими діаметрами і масами, але я втрачений, як діяти.


6
Цікаве питання - але дивні дані: питома вага варіюється від 0,78 до 0,05. Можливо, хтось сприйняв прикраси з пінопласту для справжніх фруктів? :-)
whuber

Питання не говорить про те, з чого був зроблений плід. Я здогадуюсь, що ви можете припустити, що самі сумки також невагомі. Як вирішити проблему?
rutilusk

3
Моє зауваження було те, що, аналізуючи такі невеликі обсяги безладних даних, ми розраховуємо на знання того, що означають ці дані. Оскільки ці цифри, очевидно, не описують жодного відомого виду "фруктів", ми не можемо звернутися до таких знань домену. (Наприклад, у нас немає жодної підстави припускати, що будь-яка частина цих даних повинна "нормально поширюватися".) Це ускладнює або неможливо розробити обґрунтовані відповіді і може призвести до суперечок, оскільки це обмежує шляхи, якими ефективність будь-якого підходу може бути оцінена.
whuber

Але фрукти з пінопласту не можуть загнивати. Можливо, плід - це пролетні сфероїди, «діаметр» вимірюється по довгій осі. Здається, що принаймні два види фруктів: тож, якщо припустити, що питома вага близька до одного, менша буде приблизно розміром і формою лимона; більший близько пів фута в довжину і менше 2 дюймів поперек. Складність з цією ідеєю полягає в тому, що здається більш природним описати коротшу вісь як "діаметр".
Scortchi

Відповіді:


1

Почнемо з побудови даних і поглянемо на них. Це дуже обмежений обсяг даних, тому це буде дещо ad hoc з великою кількістю припущень.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

Отже, це дані, червоні крапки - це гнилі плоди:

фрукти накреслені

Ви вірно вважаєте, що існує два види фруктів. Я висловлюю такі припущення:

  • Діаметр розбиває плоди на дві групи
  • Плоди діаметром більше 10 відносяться до однієї групи, інші до меншої групи.
  • У великій фруктовій групі є лише один гнилий плід. Припустимо, що якщо плід є у великій групі, то гниття не впливає на вагу. Це важливо, оскільки у нас є лише одна точка даних у цій групі.
  • Якщо плід невеликий плід, то гниття впливає на масу.
  • Припустимо, що змінні diam і маса звичайно розподіляються.

Оскільки дано, що сума діаметра - 64,2 см, то, швидше за все, два плоди великі, а чотири - маленькі. Зараз є 3 випадки для ваги. Згнили 2, 3 або 4 маленьких плода (( великий гнилий плід не припускає маси на припущення ). Тож тепер ви можете отримати межі вашої маси, обчисливши ці значення.

Ми можемо емпірично оцінити ймовірність кількості гнилих дрібних плодів. Ми використовуємо ймовірності, щоб зважити свої оцінки маси, залежно від кількості гнилих плодів:

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

Давши нам остаточну оцінку 691,5183г . Я думаю, що ви повинні зробити більшість припущень, які я зробив, щоб дійти висновку, але я думаю, що це можливо зробити розумнішим чином. Також я емпірично беру пробу, щоб отримати ймовірність кількості гнилих дрібних плодів, тобто це лінь і це можна зробити "аналітично".


Дякую за ваш внесок. Мені здається, що більшість тверджень, які ви називаєте "припущеннями", - це дійсно висновки, засновані на вашому дослідницькому аналізі. Було б корисно проаналізувати, як ваші результати залежать від точності цих висновків. Незважаючи на це, зрозуміло, що такий невеликий набір даних не може підтримувати результат із семи значущих цифр! Було б особливо корисно надати певну оцінку її ймовірної помилки. Він буде відносно великим, що було б важливо знати.
whuber

@whuber дякую за коментар, я можу додати щось більше для оцінки варіанту пізніше ввечері. Найпростіше зробити, щоб отримати оцінки помилок для маси трьох груп, які я використовую для остаточного обчислення, та обчислити інтервали прогнозування на основі цього. Але я бачу, що ОП вже рік був неактивним, тому не очікую, що ця відповідь буде прийнята. Я все ще думаю, що цей приклад - це приємна проблема «іграшки», щоб побачити, як можна отримати так мало даних.
Гумео

Я намагаюся припустити, що ви насправді отримуєте набагато менше інформації, ніж пропонується у вашій відповіді, тому що це залежить від багатьох висновків даних, які самі по собі є дуже невизначеними.
whuber

@whuber Так, це абсолютно правильно. Але намагатися оцінити помилку, поширювану всіма припущеннями / висновками, які я роблю, не дуже просто. На мене також сильно вплинуло те, що сума діаметрів плодів у другому пакетику становить 64,2 см і що ОП зазначає, що може бути дві групи фруктів.
Гумео

1
@whuber Я подумаю про це і прийму це як виклик. Я перегляну це питання пізніше!
Гумео

0

Я б запропонував такий підхід:

  1. Створіть усі 6-кортежі, які відповідають умовам на 4 гнилих. Вони .(64)(72)
  2. Виберіть із створених кортежів лише ті, які відповідають умові по діаметру.
  3. Обчисліть середню вагу вибраних кортежів (звичайне середнє арифметичне).

Все це можна керувати простим сценарієм.


5
Чому такий підхід повинен працювати? Які припущення це робить? Ви спробували це, щоб побачити, чи може він взагалі дати відповідь?
whuber

0

Кілька підходів включають, від найпростішого до складного,

  1. 6 (середня маса)
  2. 6 (середній об'єм) (середня густина)
  3. 4 (середня гнила маса) + 2 (середня негнила маса)
  4. 4 ((середній гнилий об'єм) + 2 (середній об'єм гнилого)) (середня густина)
  5. 4 (середній гнильний об'єм) (середня густа гниль) + 2 (середній негнилий об'єм) (середня непрогнила щільність)

. . .

комбінаторні методи

Підходи розташовуються в порядку простоти обчислення, а не в тому, щоб будь-який підхід був кращим або взагалі був хорошим. Вибір того, який підхід використовувати, залежить від того, які характеристики населення відомі чи припускаються. Наприклад, якщо маса фруктів серед населення магазину зазвичай розподіляється і не залежить від діаметрів та стану гнилі, можна використовувати перший, найпростіший підхід без будь-яких переваг (або навіть недоліків помилки вибірки декількох змінних) використання більш складних підходів . Якщо не є незалежними однаково розподіленими випадковими змінними, то складніший вибір залежно від відомої чи припущеної інформації про сукупність може бути кращим.


3
Чому будь-яке з них корисне? Які припущення вони роблять? Як би вибрати один над іншим? (Чи є вони також у порядку сходження доброти в якомусь сенсі?)
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.