Пояснення середнього, медіанного, режиму в умовах Лаймана


10

Як би ви пояснили поняття середнього, медіанного та режиму списку чисел і чому вони важливі для когось, що має лише основні арифметичні навички? Не будемо згадувати скутість, CLT, центральну тенденцію, їх статистичні властивості тощо.

Я комусь пояснив, що це лише швидкий і брудний спосіб "узагальнити" список номерів. Але озираючись назад, це навряд чи освітлює.

Будь-які думки чи приклади реального світу?


Вони є "центральною тенденцією", також "найімовірнішим результатом" в різних областях. Інтенсивність, порядок та частота, зокрема. У реальному світі також є варіація - тому такі речі, як стандартне відхилення, міжквартильний (або квантильний) діапазон та міжмодальний діапазон також є досить корисними, оскільки вони вказують на "тенденцію до змін" або "типову варіацію результатів".
EngrStudent

Ви можете навести приклад, що машина може генерувати числа навмання. Ви збираєте всі числа, які він генерує в списку. Тепер ви хочете представити його своїм друзям, не цитуючи кожного номера у списку. Таким чином, ви шукаєте заходи, які можуть допомогти вам описати. Середня / середня / режим - це три подібних заходи, які забезпечують розуміння основних властивостей машини.
Кевін Пей

@KevinPei Але що означає "означає" в цьому випадку? Середній / медіанний / режим не дуже пояснює надуманий, автономний приклад.
Concerned_Citizen

1
Пошук середнього є проблемою пошуку точки зрізу, що врівноважує пилочку після того, як діти (однакової ваги) взялися за неї у довільній кількості та у довільних положеннях на балці. Пошук медіани - це одне і те ж завдання, тільки діти кажуть, що вони згрупуються лише в двох положеннях або на "цій" стороні, або на "тій" стороні.
ttnphns

Ви не можете пояснити це без поняття розподілу. Маючи лише основні арифметичні навички, ви повинні малювати картини.
Аксакал

Відповіді:


6

Дякую за це просте, але все ще глибоке запитання про основні статистичні поняття середнього, медіанного та режиму. Існує кілька чудових методів / демонстрацій для пояснення та розуміння інтуїтивного (а не арифметичного) розуміння цих понять, але, на жаль, вони не відомі (або, як я знаю, в школі, наскільки мені відомо).

Середнє значення:

1. Точка балансу: середнє значення як опорний пункт

Найкращий спосіб зрозуміти поняття - це думати про це як про рівновагу на рівномірному стрижні. Уявіть низку точок даних, таких як {1,1,1,3,3,6,7,10}. Якщо кожна з цих точок позначена на рівномірному стрижні і в кожній точці розміщені рівні ваги (як показано нижче), то опорне місце повинно бути розміщене на середньому рівні даних, щоб стержень врівноважився.

введіть тут опис зображення

Ця візуальна демонстрація також призводить до арифметичної інтерпретації. Арифметичне обгрунтування цього полягає в тому, що для того, щоб опорна точка була врівноваженою, сумарне відхилення від середнього (з лівого боку опорного пункту) повинно дорівнювати загальному позитивному відхиленню від середнього (праворуч). Отже, середнє значення виконує роль балансуючої точки в розподілі.

Це наочне зображення дозволяє негайно зрозуміти середнє значення, яке стосується розподілу точок даних. Інша властивість середнього, що стає легко очевидним з цієї демонстрації, - це той факт, що середнє значення завжди буде знаходитись між значеннями min та max у розподілі. Крім того, ефект переживачів можна легко зрозуміти - що наявність залишків змістить точку врівноваження і, отже, вплине на середню.

2. Значення перерозподілу (справедлива частка)

Ще один цікавий спосіб зрозуміти середину - сприймати це як значення перерозподілу . Ця інтерпретація вимагає певного розуміння арифметики, що стоїть за обчисленням середнього, але вона використовує антропоморфну якість, а саме соціалістичну концепцію перерозподілу, щоб інтуїтивно зрозуміти поняття середнього.

Розрахунок середнього значення включає підсумовування всіх значень у розподілі (набір значень) та ділення суми на кількість точок даних у розподілі.

x¯=(i=1nxi)/n

Один із способів зрозуміти обґрунтування цього обчислення - це розглядати кожну точку даних як яблука (або якийсь інший елемент, що можна назвати). Використовуючи той же приклад, що і раніше, у нашому зразку є вісім людей: {1,1,1,3,3,6,7,10}. Перша людина має одне яблуко, друга людина - одне яблуко тощо. Тепер, якщо хочеться перерозподілити кількість яблук таким чином, щоб воно було «справедливим» для всіх, для цього можна використати середнє значення для розповсюдження. Іншими словами, ви можете дати чотири яблука (тобто середнє значення) для кожного, щоб розподіл був справедливим / рівним. Ця демонстрація дає інтуїтивне пояснення для формули, наведеної вище: ділення суми розподілу на кількість точок даних еквівалентне поділу всього розподілу порівну до всіх точок даних.

3. Візуальна мнемоніка

Ці наступні візуальні мнемоніки забезпечують інтерпретацію середини унікальним чином:

введіть тут опис зображення

Це мнемонічне для інтерпретації значення середнього рівня. Висота поперечини А - середня висота чотирьох літер.

введіть тут опис зображення

І це ще одна мнемологія для інтерпретації середньої точки балансу . Положення опорної точки - приблизно середнє положення M, E та подвоєного N.

Середня

Як тільки трактування середнього значення як точки балансування на стержні зрозуміло, медіану можна продемонструвати розширенням тієї самої ідеї: точки балансування на намисті .

Замініть стрижень на рядок, але дотримуйтесь маркування даних та ваги. Потім на кінцях прикріпіть другу нитку, довшу, ніж першу, щоб утворилася петля [як намисто], і накресліть петлю над добре змащеним шківом.

введіть тут опис зображення

Припустимо, спочатку, що ваги є чіткими. Шків і петля балансують, коли однакова кількість ваг знаходиться в кожній стороні. Іншими словами, цикл «врівноважується», коли медіана є найнижчою точкою.

Зауважте, що якщо одна з ваг ковзається вгору по петлі, створюючи зовнішню сторону, петля не рухається. Це фізично демонструє принцип того, що на медіану не впливають люди, які переживають люди.

Режим

Режим, мабуть, найпростіший для розуміння поняття, оскільки він передбачає найпростішу математичну операцію: підрахунок. Той факт , що він дорівнює найбільш часто зустрічаються точки даних призводять до абревіатури: « М ост-часто Про ccurring Д ата Е lement».

Режим також може вважати найбільш типовим значенням у наборі. (Хоча глибше розуміння "типового" призведе до репрезентативного чи середнього значення. Однак доцільно прирівняти "типовий" до режиму, що ґрунтується на дуже буквальному значенні слова "типовий".)


Джерела:

  • Медіана є точкою балансу - Лінч, Журнал математики коледжу (2009)
  • Зробити статистику пам’ятною: нова мнемоніка та мотивація - менша, статистична освіта, JSM (2011)
  • Про використання мнемоніки для викладання статистики - менша, модельна статистика та додатки, 6 (2), 151-160 (2011)
  • Що означає це? - Watier, Lamontagne and Chartier, Журнал статистичної освіти, Том 19, № 2 (2011)
  • Типовий? Ідеї ​​дітей та вчителів про середнє - Рассел та Мокрос, ICOTS 3 (1990) НАВЧАЛЬНА СПРАВКА: http://www.amstat.org/publications/jse/v22n3/lesser.pdf

Щойно я натрапив на цю статтю сьогодні, яка проливає на це більше світла: priceonomics.com/how-the-average-triumphed-over-the-median
Вішал

1
Анонімний користувач також запропонував таку загальну посилання: amstat.org/publications/jse/v22n3/lesser.pdf
gung -

3

Мені цікаво, чи досягаються ваші критерії, оскільки вам здається, що ви хочете отримати максимальну ефективність та пояснювальну потужність з мінімальними матеріалами. Але простий приклад типу

1 1 2 2 2 3 3 4 5 6 15

дозволяє негайно обчислити режим (2), медіану (3) та середнє значення (44/11) = 4 і тим самим показує, що вони можуть бути різними.

Потім ви могли б пояснити, що ідеї найпоширенішого значення, значення в середині та середнього значення різні. І ввести ускладнення шляхом

  1. зміна значень для показу режиму може бути неоднозначною

  2. використовуючи приклад з парною кількістю значень, щоб пояснити умову для обчислення медіани

  3. різні значення в хвостах, щоб підкреслити, що відбувається із середнім значенням, а чому і чому ні, що може бути бажаним.

  4. використовуючи простіші приклади, у яких дві чи три середні, медіани, спосіб збігаються.

Я не згадував центральної тенденції у своєму вченні, крім того, щоб сказати, що це термін у різних літературах. Я вважаю за краще говорити про рівень та про те, як його можна кількісно оцінити. І навпаки, я не думаю, що будь-який серйозний аналіз даних можливий, якщо люди не мають мінімального почуття косості, як звичайного, ніж симетрії.


Так, коригування значень змінить підсумкову статистику, але все-таки, що означає "сам по собі"?
Concerned_Citizen

1

1
Що таке червоний ? Нам не завжди потрібно знати визначення, щоб використовувати ідеї. Зрозуміле розуміння червоного кольору, ймовірно, вимагає фізики, фізіології та психології, але я ніколи цього не потребував. Я багато знаю про те, як працює середина, але на одному фундаментальному рівні його визначення є лише його формулою.
Нік Кокс

1
@ NickCox дуже чесний і дуже правдивий. але мій досвід в коледжі все ще досить недавній, і я пам’ятаю занадто багато проблем, коли я сліпо підраховував відповідь, не розуміючи, що я вирахував або чому я це зробив
shadowtalker

1
@ssdecontrol Це ніколи не припиняється повністю ...
Нік Кокс

3

Ось як я пояснюю їх:

Середнє значення (арифметичне) - це точка, яка враховує весь набір даних і розташовується десь "посередині". Попросіть їх подумати про космічну хмару чи крапку в просторі: середнє значення - центр маси цієї хмари точок.

Медіана є точкою , яка має «однакову кількість очок з усіх боків» (де , очевидно , поняття «сторони» не цілком визначеним у вимірах 2+). Це являє собою інший вид "середини", а насправді більш інтуїтивний вид у певному сенсі. Розмірковуючи про ту саму крапку в просторі, зрозуміло, що якщо крапка буде однобічною, то середня буде зміщена. Але це недооцінка може бути досягнута одним із двох способів: або ви додаєте більше точок в одній області, або збільшуєте розсіювання точок у цій області. Якщо збільшити розсіювання точок на одній ділянці, не збільшуючи кількість очок, то медіана все одно має однакову кількість балів «з усіх боків» і не зміститься пропорційно середньому.

y=(1,2,3,4,5)y=(1,2,3,4,99)mean(y)=median(y)mean(y)>median(y). Але я рекомендую спочатку почати з геометричного / візуального пояснення на основі "крапки": на моєму досвіді, легше починати з графічної демонстрації рукою, а потім переходити до конкретних іграшкових прикладів. Я вважаю, що більшість людей (включаючи і мене) не є природньо орієнтованими на число, і починати з числового пояснення - це рецепт плутанини. Ви завжди можете повернутися назад і навчити більш точних визначень пізніше.

Режим є точкою , що, якщо точки випадковим чином вибірки з цього згустку, швидше за все, з'явиться (визнання того, що це помадки для безперервних даних). Це може бути, але не повинно бути розташоване поблизу середнього або середнього.

Після того, як ви пояснили ці поняття, то ви можете перейти на більш «статистичний виглядає» демо:

демонстрація

Суцільна лінія - це середнє значення. Штриховою лінією є медіана. Пунктирною лінією є режим. Середнє значення представляє положення точок даних вздовж осі x, а медіана відображає лише кількість точок даних з обох сторін. Режим - це лише точка найбільшої ймовірності, яка відрізняється як від середнього, так і від медіани.

R код:

set.seed(47730)
y <- rgamma(100, 2, 2)
d <- density(y)
plot(d)
rug(y)
abline(v = mean(y), lty = 1)
abline(v = median(y), lty = 2)
abline(v = d$x[which.max(d$y)], lty = 3)

Хороші пояснення, але насправді це передбачає набагато більше, ніж "основні арифметичні навички": геометричне мислення, елементарна механіка, вибіркове вибіркове випробування, теорія ймовірностей (включаючи функцію щільності). Це зауваження, яке не розглядається як руйнівна критика, оскільки, на мою думку, це питання є високим наказом.
Нік Кокс

@NickCox хороші бали точно. Але тепер, коли я замислююся над цим, я стою, використовуючи їх, тому що вони, в свою чергу, можуть бути пояснені без математики (наприклад, пояснення "бачити-бачив" ttnphns в коментарях до головного питання), або вони вже є зрозуміла інтуїтивно на якомусь рівні багато людей. Щільність трохи
досяжна

(@ttnphns: позначення вас у випадку, якщо ви хочете зважити. Це не дозволить мені позначити вас обох в одному коментарі)
shadowtalker

Щільність - це не те неясне. Більшість людей повинні згадати щільність фізики та щільність населення з географії, або просто загальні знання.
Нік Кокс

@NickCox Я подумав, що це ви мали на увазі, посилаючись на елементарну механіку. І крім демонстрації щільності я також не бачу, як потрібен випадковий вибірки. Якщо що-небудь, я уявляв, що точкою стикання стане нетехнічний студент, який задовольняє ідею хмари точок. Може, взяти це за чат?
shadowtalker

2

" Середній ", " середній " і " режим " є "центральною тенденцією", також "найімовірнішим результатом" в різних областях. Всі вони "найкращі ставки" в різних "іграх".

Імовірність та статистика - це поле, яке частково було побудоване гравцями ( посилання , посилання ). Коли ви їдете на скачки або на покерний стіл, ви хочете знати деякі науки, які допоможуть вам виграти. Вони теж зробили і про це писали, тож вам не доведеться самостійно його вигадувати.

У конях ви хочете вибрати переможця. У вас немає майбутньої інформації, але ви знаєте деяку минулу інформацію. Ви знаєте, як швидко кожен кінь бігав за останні кілька забігів. Якщо ви хочете зробити оцінку того, наскільки швидко вони будуть бігати в наступній гонці, ви можете обчислити і порівняти середній, так само середній, час гонки.

Ще одна центральна тенденція - «медіана» - це центр відсортованого списку. Що робити, якщо я поставив жахливий друк у ваш список часу гонок, а значення було на 1000 разів довше всіх інших. Це зіпсує вашу оцінку. Ви можете не робити ставки на коня-переможця. Як ви вирішуєте це? Ви можете вручну шукати це одне значення або використовувати "медіану".

Що робити, якщо ви граєте в карти, як-от " блекджек ", і ви намагаєтесь зрозуміти, чи потрібна вам інша карта з попередніми картами. Карта, яку ви шукаєте, не є 3,14, оскільки номери карт є цілими значеннями. Як ви зрозумієте, яка ваша найкраща ставка, коли "середня" чи медіана не має значення? У цьому випадку ви хочете зробити ставку на "режим" - найімовірнішу карту, яка вийде зі стека дилерів.

У всіх трьох випадках центральна тенденція - це лише інший спосіб сказати "найкраща ставка".

Якщо ви хочете враховувати не лише центральну тенденцію ваших ставок, тобто, якщо ви хочете робити ставки, щоб ви могли зменшити наслідки збитку, максимізувавши виграш, тоді ви повинні переглянути "тенденції зміни". Такі речі, як стандартне відхилення, міжквантильний діапазон або альтернативні режими та їх частоти, використовуються для мінімізації максимальних втрат, максимізуючи ймовірні виграші.


0

Я думаю, що корисно пояснити це поняття, коли розглядати декілька засобів, медіанів та режимів. Ці значення самі по собі не існують у вакуумі.

Наприклад, ось як я поясню це.

Скажімо, у вас є 2 ящики кавунів (ящик 1 і 2). Це запечатано, щоб ви не могли бачити кавуни всередині, а значить, не знаєте їх розмірів. Однак ви знаєте загальну вагу кавунів у кожному ящику, і кожен містить однакову кількість кавунів. З цього ви можете обчислити середню вагу кожного ящика кавунів (М1 та М2).

Тепер, коли у вас є два різних середніх значення M1 і M2, ви можете провести грубе порівняння індивідуального вмісту. Якщо M1> M2, то випадково вибрані кавуни з ящика 1, ймовірно, можуть бути важчішими за обраний із ящика 2.

Звичайно, я б хотів коментувати цю перспективу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.