Парадокс середнього значення - як це називається?


22

У мене є набір даних. Скажіть спостережень та змінних:3103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Скажіть, що це покупців, які купили ( ) чи ні ( ) у кожній категорії . Там є , тому ці покупців в середньому купують в категорії товарів.16 10 1.61010A, B, C16101.6

Зверніть увагу, що клієнти можуть купувати більше, ніж один, A, B і C.

Якщо я дивлюся лише на тих, хто купує A, є покупців, які купили категорій товарів, тож це в середньому .9 1.8591.8

Bце знову, або .1.89/51.8

Cстановить10/6=1.67.

Усі вони вище1.6.

що здається дивним. Я розумію, але потрібно пояснити це маркетингу на наступному тижні, і тому мені потрібна допомога!

Як називається ця річ?

Я знаю, що це не парадокс Сімпсона. Для мене це логічно схоже на проблему Монті Холла та умовну ймовірність.


2
Особисто я не маю поняття, про що ти говориш. Чому б не створити таблицю надзвичайних ситуацій As, Bs та Cs для вивчення схем перехресних закупівель?
Майк Хантер

3
У нас є повідомлення, які говорять, що "Клієнти, які купують C, коштують більше, ніж в середньому - 1,67 проти 1,6", Що правда, але A і B коштують і більше, ніж в середньому. До якого неминуче постане питання "Як усі клієнти можуть коштувати більше середнього?"
Джеймс Адамс

3
Я думаю, що його головоломка полягає в тому, що воно зовні виглядає як озеро Вобегон, де всі вище середнього: P Нехай - кількість категорій / предмет, який придбав клієнт. Нехай , і - показники для придбання відповідно категорії A, B і C. , , а аA B C E [ X A ] = 1,8 E [ X B ] = 1,8 E [ X C ] = 1,67 E [ X ] = 1,6XABCE[XA]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Меттью Ганн

12
Ви можете подумати над комплементарними наборами та діаграмами Венна. Набори "клієнти, які купують" і "клієнти, які не купують", не перетинаються. Але набори, які ви перераховуєте у своєму запитанні, перетинаються. Ви можете обчислити загальне середнє значення (середньозважене) середніх середніх підмножин, лише якщо підмножини утворюють розділ .
GeoMatt22

4
Чи це схоже на парадокс більшості ілюзій ? Таким же чином, що будь-яка особа, ймовірно, буде підключена до супермережі, будь-яка категорія придбань, ймовірно, містить суперпокупця? (Я називаю супермережу тим, хто зв’язується з багатьма людьми, а супер покупцем - хтось, хто купує багато різних предметів)
Меттью Ганн

Відповіді:


28

Середнє значення для кожної підкатегорії може бути вище загального середнього, якщо підкатегорії перекриваються у великих клієнтів.

Простий приклад для отримання інтуїції:

  • Нехай - це показник, чи фізична особа придбала товар у категорії А.A
  • Нехай - показник, чи фізична особа придбала товар у категорії В.B
  • Нехай - кількість придбаних предметів.X=A+B

PersonABi10ii01iii11

Набір індивідів, де є істинним, перекриває набір людей, де є правдою. Вони НЕ непересічні набори.БAB

Тоді а іE [ X A ] = 1,5 E [ X B ] = 1,5E[X]1.33E[XA]=1.5E[XB]=1.5

Ствердження, яке було б істинним:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

Ви не можете просто обчислити ім'я оскільки множини і перекриваються, вираз удвічі рахує особу хто купує і товар і !A B A BP(A)E[XA]+P(B)E[XB]ABAB

Назва для ілюзії / парадоксальності?

Я б заперечував, що це пов'язано з парадоксами більшості ілюзій у соціальних мережах.

У вас може бути єдиний чувак, який всіх / друзів всіх. Ця людина може бути одним з мільйона в цілому, але він буде одним з друзів кожної людини .k

Аналогічно, у вас є 1 з 3, які купують обидві категорії A і B. Але в будь-якій категорії A або B один із 2 покупців - суперпокупець.

Крайній випадок:

Створимо наборів лото-квитків. Кожен комплект включає два квитки: програючий квиток та виграшний квиток на джекпот.S i inSii

Середній виграш у кожному наборі тоді де - джекпот. Середнє значення кожної категорії на ШЛЯХ вище середнього виграшу за квиток в цілому .JSi JJJ2JJn+1

Це та сама концептуальна динаміка, що і у випадку продажу. Кожен набір включає в себе квиток на джекпот так само, як кожна категорія A, B або C включає великих покупців.Si

Моя суть полягає в тому, що інтуїція, заснована на розрізнених множинах, повний розділ простору вибірки не переходить до ряду наборів, що перекриваються . Якщо ви погоджуєтесь із категоріями, що перетинаються, кожна категорія може бути вище середнього.

Якщо ви розділяєте пробний простір та умову на непересічні набори, то категорії мають у середньому до загальної середньої величини, але це не вірно для наборів, що перекриваються.


3
Спасибі! Я думаю, що подвійний підрахунок - це ключ до пояснення. Я не думаю, що це неодмінно результат кількох екстремальних значень. Мій приклад вищенаведеного набору даних є досить мирським, і ефект "усіх груп вище середнього" все ще відбувається. Гадаю, це відбудеться в більшості випадків. Просто цікавилося, чи має це ім’я чи попередній приклад.
Джеймс Адамс

Це пояснення не буде справедливим, якщо дані @JamesAdams аналізують, є помилковими. Я стверджую, що це так. Ви не можете мати взаємовиключний і повний набір категорій A, B і C, де середні показники групи всі вище середнього серед усіх 3, взятих разом, без порушення якогось фундаментального припущення аналізу даних. У вашому випадку найімовірніше, що знаменник загальної середньої величини відрізняється (наприклад, містить більше респондентів) від тих, які використовуються для оцінки засобів для A, B і C.
Майк Хантер

2
@DJohnson Звичайно, ви маєте рацію, якщо встановити A, B і C розділити пробний простір. Моє читання питання та наданих "даних" (що б там не було) полягає в тому, що A, B і C - це сукупності, що перетинаються . Якщо A, B і C перекриваються, то середні показники для групи можуть бути вищими за загальне середнє значення (що є суть моєї відповіді; набори перекриваються у найбільших клієнтів!). Ніщо, що ОП не сказало, є внутрішньо непослідовним. Ваш детектор "Ми передаємо дані BS" може бути кращим, ніж мій, і я погоджуюся, що завжди важливо задавати критичні питання щодо дійсності даних / номерів.
Меттью Ганн

Так, вони перекриваються наборами. Мій набір даних - мільйони клієнтів і 12 категорій. Коли я побачив, як усе середнє значення було вище загального середнього, я подумав, що це виглядає дивно, але зрозуміло. Я зібрав набір прикладів з 10 груп та 3 категорій, щоб побачити це. Я просто розкидав тут 1 і 0, і вийшло те саме. Я підозрюю, що це відбувається з більшістю наборів даних, де обчислюється цей тип середнього. @ Джоджсон мій приклад вище, що я використовую 10 як знаменник загальної середньої величини, 5 для As, 5 для Bs, 6 для Cs. Чи можете ви сказати мені, що я порушую в цьому прикладі?
Джеймс Адамс

Що означає "10"? Число респондентів у трьох категоріях? Що відбувається з середніми значеннями, якщо ви використовуєте однаковий знаменник для всіх? Він повинен повертати середні показники, що коливаються навколо великої середньої величини.
Майк Хантер

10

Я б назвав це парадоксом розміру сім'ї чи чимось подібним

Припустимо, для простого прикладу, у кожного був один партнер та кількість дітей, розподілених Пуассоном із параметром :2

  • Середня кількість дітей на людину становила б2
  • Середня кількість дітей на людину з дітьми буде21e22.313
  • Середній розмір групи братів та сестер для кожної особи (рахуючи їх братів і сестер та самих себе) буде3

Реальні демографічні та опитувальні номери дають різні цифри, але схожі зразки

Очевидний парадокс полягає в тому, що середній розмір окремих груп братів та сестер більший, ніж середня кількість дітей на сім’ю; при стабільній динаміці населення люди, як правило, мають менше дітей в середньому, ніж їх батьки

Пояснення полягає в тому, чи приймається середнє значення для батьків та родин чи над братами та сестрами: для багатодітних сімей застосовуються різні ваги. У вашому прикладі є різниця між ваговою вагою для окремих осіб або за покупками; ваші умовні середні показники підштовхуються тим фактом, що ви обумовлюєте певну покупку.


8

Інші відповіді переосмислюють те, що відбувається. Припустимо, є один товар і два покупці. Один купував товар (один раз), а один - ні. Середня кількість придбаних товарів становить 0,5, але якщо дивитися лише на замовника, який придбав товар, середній піднімається до 1.

Мені це не здається парадоксальним чи контрінтуїтивним; умова на придбання товару, як правило, підвищить середню кількість придбаних товарів.


Саме так. Якщо припустити, що покупки в кожній з трьох категорій не сильно співвідносяться, то, що ви робите, це обчислення середніх значень після підвищення ставки покупки до 100% в одній із категорій. Мабуть, більш інформативним буде порівняння, наприклад. середній показник покупки у категоріях В та С: а) серед усіх покупців (11/20) б) серед тих, хто придбав А (4/10). Залежить від того, що ви намагаєтесь показати / знайти, я думаю.
Конрад

2

Хіба це не просто «середня середня величина» плутанини (наприклад, попереднє запитання про зміну ставок ) у маскуванні? Здається, ваша спокуса полягає в тому, що середні середні показники повинні дорівнювати до середнього показника чисельності, але це буде рідко.

У класичному «середньому середньому показнику» хтось знаходить середнє число N взаємовиключних підмножин, а потім невміло оцінюється, що ці значення не є середніми для середнього населення. Єдиний спосіб, коли цей середній показник працює в середньому, це якщо ваші підмножини, що не перекриваються, мають однаковий розмір. В іншому випадку потрібно взяти середньозважений показник.

Ваша проблема стає складнішою за цю традиційну середню плутанину середніх значень, маючи перекриття підмножини, але мені здається, що це просто класична помилка з поворотом. З підгрупами, що перекриваються, ще важче закінчити середні підпробові середні показники, які в середньому відповідають середньому числу населення.

У вашому прикладі, оскільки користувачі, які з’являються у кількох підпроборах (і тому купували багато речей), збільшать ці середні показники. В основному ви рахуєте кожного великого споживача кілька разів, тоді як з ощадливими людьми, які купують лише один предмет, стикаються лише один раз, тому ви ухиляєтесь до більших цінностей. Ось чому ваші конкретні підмножини мають вище середнього значення, але я думаю, що це все ще лише проблема "середнього значення середніх".

Ви також можете сконструювати з ваших даних всі види інших підмножин, де середній підримок приймає різні значення. Наприклад, візьмемо підмножини, дещо схожі на ваші підмножини. Якщо взяти підмножину людей, які не купували А, ви отримуєте в середньому 7/5 = 1,4 предмета. З підмножиною, яка не купила B, ви також отримуєте в середньому 1,4 предмета. Ті, хто не купував С, купували в середньому 1,5 речі. Це все нижче середнього чисельності населення на 1,6 предмета / замовника. Враховуючи правильний набір даних і правильну колекцію підмножин, ви можете закінчити перекриття підмножин, середнє значення яких до середнього рівня населення; однак це було б нечасто у звичайних програмах.

Це тільки я, чи слово середнє зараз здається дивним після стількох повторень ... Сподіваюся, моя відповідь виявилася корисною, і вибачте, якщо я зіпсував вам середнє слово!


Спасибі! Коментар про неперекриваються розділи одного розміру прояснив це на моїй думці. Я сподівався, коли приїду представити ці показники, можу сказати щось на кшталт "Усі середні категорії категорії вищі за загальний середній показник, але це парадокс Блабла". Як коли ви говорите "Парадокс Сімпсона! Сексизм ліги плюща!" а потім вибігає з кімнати. (Ви все це робите іноді, чи не так?) Я хотів би сказати їм "Це тому, що це перекриваються підмножини різної величини", але не думайте, що це приземлиться!
Джеймс Адамс

1
Ха-ха, досить справедливо. Раніше я не до кінця зрозумів контекст - я студент астрофізики, тому не дуже знайомий з контекстом. Ви можете сказати щось коротке, до ефекту "Всі середні підмножини є вищими за загальні середні, оскільки вони, таким чином, зробили, що підмножина спрямовує нас на більші значення". Я б не згадував середню назву середніх значень, оскільки це не все так добре відомо, і ваш випадок - це як узагальнення. Я б також спробував знайти синонім для заміни категорій слів - зазвичай я вважаю, що слово означає взаємовиключні підмножини.
tbell

Семантична сатифікація - це психологічне явище, при якому повторення змушує слово чи фразу тимчасово втрачати значення для слухача, який потім сприймає мовлення як повторювані безглузді звуки.
Патрік

1

Оскільки питання полягає в тому, що " я це розумію, але мені потрібно пояснити це маркетингу ", ОП видається занепокоєним тим, як мирянин буде інтерпретувати ці факти - (не чи факти є правдивими, чи як показати, що вони є). Питання посилається на 10 категорій товарів (AJ), то як щодо цього прикладу:

[на зустрічі з маркетинговою групою]
ОП : Отже, як ви бачите тут , клієнти, які купують A, B і C, - цінніші за середні.
Леман : Зачекайте ?! Як кожен може бути вище середнього?
ОП : Добре питання. Цей слайд орієнтований на клієнтів A, B і C, але є й інші, малоефективні групи, які не відображаються. Наприклад, клієнти категорій D і G коштують приблизно половину в середньому.

Це повинно вгамувати внутрішній bs-сигнал про "все вище середнього".


Це не спосіб відповісти на запитання.
Майкл Р. Черник

На його запитання відповіли, але ніхто не звертався до його проблеми.
Патрік

Мій коментар стосувався лише відповіді Патріка.
Майкл Р. Черник

Я не бачу жодного правила проти різних стилів відповіді. Повідомлення (реальне чи уявне) обговорення та бесіди - це час, який розглядають питання Сократа далі (і перед ним для всіх, що я знаю).
Нік Кокс

Але це пояснення фактично неправильне. Навіть за відсутності додаткових категорій (DJ) спостереження залишається істинним: середні значення підмножини, що перекриваються, можуть бути вищими, ніж середні для всього набору, навіть якщо підмножини охоплюють весь набір.
isarandi

0

Тут ігноруйте інші відповіді. Це насправді зовсім не парадокс. Справжня проблема, яку тут, мабуть, ігнорують усі, - це те, що ви помиляєтесь, на яку вірогідність насправді дивитесь. Насправді є дві абсолютно різні середні показники та статистичні дані, які обидва мають власне використання та інтерпретацію у запропонованому вами прикладі (маркетинг)!

По-перше, це середня кількість товарів, придбаних на одного клієнта. Так в середньому один клієнт купує 1,6 предмета. Звичайно, замовник не може не 0,6 продукту (якщо припустити, що це не щось на зразок рису чи зерна, пов'язане з ним постійне вимірювання).

По-друге, є середня кількість покупців, які купують певний товар. Звучить дивно правильно? Так що в середньому продукт має 5,33333333 ... покупці купують його. Однак це інакше. Тут ми описуємо не кількість придбаних товарів (їх всього три!), А кількість людей, які фактично купують цей продукт.

Подумайте про ці два значення таким чином: Що б представляли ці два значення, якби був лише один клієнт або лише один продукт? Зрештою, середнє значення однієї точки даних - це саме те, що задано точкою даних.

Або ще краще, подумайте про графік так, ніби він дає вам доларові суми, витрачені на придбання товару. Очевидно, що середня сума, витрачена окремим клієнтом, буде набагато меншою, ніж сума грошей, вироблених в середньому продуктом, що постачається великою корпорацією (або навіть просто малим бізнесом). Я впевнений, що ви можете придумати хороші способи використання обох цінностей, обговорюючи добробут компанії.

Коли ти йдеш пояснювати це маркетинговим працівникам, поясни це їм так само, як я вже сказав. Це не парадокс. Це просто зовсім інша статистика. Єдине питання тут було помітити, що насправді існують два різні способи зчитування діаграми (тобто кількість людей, які купують за продукт порівняно з кількістю товарів, придбаних на людину).

tl; dr. Перше, що ви описали, - це середня сума, яку окремий клієнт готовий витратити, купуючи вашу продукцію. Другий - середній попит населення на дану продукцію. Я впевнений, що зараз ви можете зрозуміти, чому обоє, безумовно, не те саме. Порівнюючи їх як такі, просто ви дасте інформацію про сміття.


EDIT

Здається, питання насправді задає питання про середні гроші, витрачені клієнтами, які купують якийсь товар a, b або c. Добре. Це насправді лише помилка в розрахунках. Я б не назвав це парадоксом. Це справді просто тонкий флюб.

Подивіться на свої стовпці. Між стовпцями є люди, якими ділиться. Припустимо, ви зробили відповідну середньозважену середню. Ви ще двічі додаєте людей. Це означає, що середній показник міститиме зайвих людей із значенням, більшим або рівним 2. Тепер, який був ваш середній показник? Це було 1,6! По суті ваш середній показник виглядає приблизно так:

i=0nvalueOfPersonivalueOfPersonin

Це, безумовно, не правильна формула. Це середньозважене значення, хоча припускаючи взаємну ексклюзивність, саме так ви б налаштувались, щоб отримати справжнє середнє у вашій ситуації.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

У будь-якому випадку ви отримаєте заплутану середню. Однією помилкою було ігнорування необхідності середньозваженого середнього показника, оскільки одна категорія має більшу "вагу" щодо середнього. Це як щільність. Одне значення щільніше у людей представляє. Інше питання - це додавання дублікатів, яке буде спотворювати середнє значення. Я не називаю жодного з цих "парадоксів". Коли я побачив, що ти робиш, мені здалося очевидним, чому це не вийде. Середньозважений рівень дещо сам собою пояснює свою потребу, і я думаю, що тепер, коли ви бачите, що ви додавали значення кілька разів ... це не може працювати. Ви в основному взяли середнє значення квадратів їх значень.


Я не думаю, що це так. Мене тут не цікавить, скільки людей купує той чи інший товар. Мене цікавить, скільки всього товару придбав клієнт, враховуючи, що він купив А.
Джеймс Адамс

@JamesAdams Добре справедливо. У цьому випадку питання є ще більш тривіальним. Ви просто берете в середньому підмножину вашої вибірки. Теоретично, якби ви зробили те саме з B і C, остаточне середнє значення не було б фактичним середнім. Однак це лише через те, що зразки нерівні. Це все. Насправді я не бачу жодної причини, чому це було б очевидно для людини. Насправді є рішення для фіксації середніх значень, щоб отримати належну середню. Це називається середньозваженим рівнем, і в основному ви б "важили" кожний підрахунок з кількістю людей у ​​цій групі. Мати сенс?
Велика качка

@JamesAdams, і я знаю, що ти це не цікавиш. Ви з математики, за якою ви стверджували, створили парадокс, який використовується в середньому, щоб спробувати обчислити середню кількість продуктів на людину. Ось чому в цій відповіді я підкреслюю, що існує друга середня оцінка для різної статистики, і ваша "помилка" була в тому, щоб спробувати визначити її абсолютно іншою середньою.
Велика качка
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.