Розрахунок розподілу від хв, середнього та макс


10

Припустимо, у мене є мінімальний, середній та максимум деякого набору даних, скажімо, 10, 20 та 25. Чи є спосіб:

  1. створити розподіл з цих даних та

  2. знати, який відсоток населення, ймовірно, лежить вище або нижче середнього

Редагувати:

Згідно з пропозицією Глена, припустимо, у нас розмір вибірки 200.


(1) легко, тому що існує багато рішень. (2) найкраще робити в контексті деяких припущень щодо форми розподілу, бо в іншому випадку все, що ви можете отримати, є математичними межами.
whuber

3
На даний момент вас беруть до уваги в коментарях та відповідях, але необхідна обережність (я думаю, зауваження у @ whuber) полягає в тому, що існує стільки дистрибутивів, сумісних з такою інформацією, що ви не повинні робити висновок, що у вас є достатня кількість інформації робити це взагалі добре або надійно. Зокрема, якщо ви навіть не знаєте розміру вибірки, ви не можете багато навіть думати про невизначеність.
Нік Кокс

Коли ви запитуєте про частку населення, яка "лежить вище або нижче середньої" ... Ви запитуєте відносно середньої вибірки чи середнього значення населення? Ми говоримо про безперервні чи дискретні змінні? Чи знаємо ми розмір вибірки?
Glen_b -Встановіть Моніку

Відповіді:


10

У мене є мінімальний, середній і максимум деякого набору даних, скажімо, 10, 20 і 25. Чи є спосіб:

створити розподіл з цих даних та

Існує нескінченна кількість можливих розподілів, яка б відповідала цим вибірковим кількостям.

знати, який відсоток населення, ймовірно, лежить вище або нижче середнього

За відсутності якихось ймовірних невиправданих припущень, не взагалі - принаймні, не з великим сенсом, що це буде осмислено. Результати багато в чому залежатимуть від ваших припущень (в самих значеннях не так багато інформації, хоча деякі конкретні домовленості надають корисну інформацію - див. Нижче).

Не важко придумати ситуації, коли відповіді на питання про пропорцію можуть бути дуже різними. Коли є дуже різні можливі відповіді, які відповідають інформації, то як би ви дізналися, в якій ситуації ви знаходитесь?

Більш детальна інформація може дати корисні підказки, але, як це є (без навіть розміру вибірки, хоча, мабуть, принаймні 2 або 3, якщо середнє значення не знаходиться на півдорозі між кінцевими точками *), ви не обов'язково отримаєте велику цінність з цього питання . Можна спробувати вийти за межі, але в багатьох випадках вони сильно не звужують речі.

* насправді, якщо середнє значення близьке до однієї кінцевої точки, ви можете отримати деяку нижню межу щодо розміру вибірки. Наприклад, якщо замість 10,20,25 за ваш мінімум / середній / макс ви мали 10 24 25, тодінповинно було бути принаймні 15, і це також дозволило б припустити, що більшість населення була старше 24 років; це щось. Але якби сказати 10,18,25, набагато складніше скласти корисне уявлення про те, яким може бути розмір вибірки, не кажучи вже про частку нижче середнього.


2
@DJohnson Я не думаю, що це гіперболічне - це абсолютно буквально правда (хоча наша здатність насправді їх перелічити може провалитися через кілька тисяч, і наша здатність піклуватися про їх подальше перерахування може провалитися через кілька десятків, це не означає не існує інших наборів припущень, під якими ми могли б працювати). У моїй фразуванні не було наміру поблажливості - це навмисно вибрано, щоб насправді вказати справжню широту можливих наборів припущень. Що б ви хотіли, щоб я написав?
Glen_b -Встановіть Моніку

3
1. Що є причиною обмеження можливостей максимум двома параметрами? Що робити, якщо дані отримані, наприклад, з трьох параметрів лонормальних? У багатьох випадках ми не можемо оцінити всі параметри з даних, але це частина проблеми, яку я намагаюся мотивувати там (це стосується обговорення припущень. 2. Джонсон та Коц - це підмножина того, що названі дистрибутивами люди / працював, не віддаляючись на те, які припущення можливі . Я винайшов численні дистрибуції, яких немає в Джонсоні та Коц, і ...
ctd

4
ctd ... Я майже впевнений, що тут не все виключено. Навіть не маючи визначених параметрів, існує нескінченність можливих cdfs, нескінченна підмножина яких не виключається зазначеною інформацією.
Glen_b -Встановіть Моніку

1
@Djohnson Незалежно від обсягу будь-якої незгоди, я ціную ваші корисні коментарі. Я подумаю, чи хоч би більш чітко вказати на те, що я насправді говорю (моє фактичне твердження здатне довести, чи це було потрібно, але, мабуть, я можу принаймні чітко це висловити), і чи варто це по-іншому формулювати.
Glen_b -Встановіть Моніку

4
@DJohnson Візьміть два різних розподіли, що відповідають умовам: будь-яка суміш цих двох все ще задовольнятиме зазначеним умовам. Це буквально нескінченність: нечисленна.
Елвіс

8

Як уже зазначав Glen_b , можливостей існує нескінченно багато. Погляньте на наступні сюжети, вони показують вісім різних розподілів, які мають однакові хвилини, максимум та середнє значення.

Вісім різних розподілів

Зауважте, що вони сильно відрізняються один від одного. По-перше, рівномірна, вперед - бімодальна суміш трикутних розподілів, сьома має масу найбільшої ймовірності, зосереджену навколо центру, але все ще min та max можливі з дуже малою ймовірністю, вісім дискретний і має лише два значення при min та at max тощо. .

Оскільки всі вони відповідають вашим критеріям, ви можете використовувати будь-який з них для моделювання. Однак ваш суб'єктивний вибір мав би дуже глибокий результат щодо результатів моделювання. Я хочу сказати, що якщо min, max та mean - це єдине , що ви знаєте про розподіл, то у вас недостатньо інформації для проведення моделювання, якщо ви хочете, щоб він наслідував реальний (невідомий) розподіл.

Таким чином , ви повинні запитати себе , що ж ви знаєте про розподіл? Це дискретно чи безперервно? Симетричний чи перекошений? Унімодальний або бімодальний? Є багато чого, що варто врахувати. Якщо це безперервний, нерівномірний і одномодальний, і ви знаєте лише мінімум, макс і середнє значення, то один можливий вибір - трикутний розподіл - навряд чи щось у реальному житті має такий розподіл, але принаймні ви використовуєте щось просте і не нав'язувати занадто багато припущень щодо його форми.


Отже, якщо я припустив трикутний розподіл, я міг би обчислити режим, а також мою поточну інформацію. Чи допомогло б це?
користувач132053

1
@ user132053 вам потрібні лише хвилини, максимум та середнє значення. Формула для середнього трикутного розподілу - (a + b + c) / 3, ви можете вирішити її для режиму, використовуючи просту арифметику.
Тім

4

Правило обчислення середнього відхилення на основі діапазону широко цитується в статистичній літературі (тут є одна довідка ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Девіація.htm ). В основному, це (max-min) / 4. Відомо, що це дуже приблизна оцінка.

Зважаючи на те, що інформація та готовність приймати нормально розподілені дані, нормальне відхилення може формуватися від двох чисел, середнього та відхилення на основі діапазону std. Однак, будь-який одно- або двопараметричний розподіл може бути сформований із цих двох даних, доки цей розподіл був укорінений у перший чи другий момент.

Приблизний коефіцієнт варіації також може бути отриманий, приймаючи відношення SD / середнє значення. Це забезпечило б проксі-сервер для безвідмінної змінності даних.

Помилка більш правильно стосується розподілу вибірки популяції та вимагає твердження розміру вибірки, n , для оцінки. У вашому описі немає детальної інформації.


3
Деякі речі, які варто відзначити: (1) Середнє значення потенційно дає більше інформації, яка повинна перекрити правило (max-min) / 4. (2) Оскільки подано три фрагменти інформації, використовуючи лише сімейство з двома параметрами, загалом виходить на ступінь гнучкості.
whuber

@whuber Ви зробили два нав'язливі коментарі до цієї теми. Що було б чудово, якби ви докладно розкривали їх і вказували відповідь.
Майк Хантер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.