Сюжет вікна для мультимодального розподілу


13

Чи можу я використовувати сюжетні коробки та вусики також для багатомодального розподілу або лише для одномодального розподілу?


Звичайний термін для розподілу з більш ніж одним режимом буде " мультимодальним ". Якщо це ви маєте на увазі, будь ласка, редагуйте, щоб використовувати звичайний термін. Якщо ви маєте на увазі щось інше, будь ласка, визначте цей термін.
Glen_b -Встановіть Моніку

1
Сюжетні коробки не завжди корисні для складних форм розподілу. Бімодальні ... мультимодальні (я б припустив, що це більш поширений термін, ніж "полімодальні") форми часто приховуються. Багато що залежить від того, наскільки сильний відхід від унімодальності. Інакше дзвоник не пролунає, і повідомлення про помилку не надійде. Але навіть гістограма або оцінка щільності ядра може забруднити складні розподіли; дехто вважає, що як особливість легко перестати приймати режими, які є лише вигадками у вибірці. Я б сказав, що єдиний вид сюжету, який не втрачає інформації, - це кількісний сюжет.
Нік Кокс

@Glen_b Я так і зробив. У моїй книзі вони говорять про полімодальне розподілення. Чи правильним є одномодовий на один пік?
користувач1091344

1
Ви, звичайно, можете використовувати коробку-сюжет - хто б вас зупинив? Проблема полягає в тому, що звичайний boxplot не вказує на кількість режимів (хоча є модифікації boxplots, які можуть вказувати на багатомодальність). Боксплоти краще, коли інтерес зосереджується на міжгрупових порівняннях місцеположення та поширення (по багатьох групах), а не тоді, коли форма розповсюдження становить прямий інтерес. Якщо мультимодальність важлива для показу - особливо якщо груп мало, - я б настійно пропонував використовувати інший дисплей, а може й декілька. (Я розгорну свій коментар у відповідь, коли зможу.)
Glen_b -Встановіть Моніку

1
Ваші свідчення не спонукають нас добре мислити цю книгу.
Нік Кокс

Відповіді:


20

Проблема полягає в тому, що звичайний boxplot * зазвичай не може вказати кількість режимів. Хоча в деяких (як правило, рідкісних) обставинах можна отримати чітке вказівку на те, що найменша кількість режимів перевищує 1, частіше дана боксплот відповідає одному або будь-якій більшої кількості режимів.

* запропоновано кілька модифікацій звичайних видів боксплот, які роблять більше, щоб вказати на зміни щільності і використовувати кулачок для ідентифікації декількох режимів, але я не думаю, що це мета цього питання.

Наприклад, в той час як ця ділянка робить вказують на присутність , щонайменше , двох режимів (дані були отримані таким чином , щоб мати рівно два) -

введіть тут опис зображення

навпаки, у цього є два дуже чіткі режими в його розповсюдженні, але ви просто не можете цього сказати:

введіть тут опис зображення

n=

Дійсно, фігура 1 тут (який я вважаю , це робочий документ пізніше опубліковані в [1]) показує чотири різних набору даних з однієї і тієї ж коробки ділянки.

У мене немає цих даних, але тривіальне питання зробити подібний набір даних - як зазначено у посиланні вище, пов’язаному з підсумком п’яти чисел, нам потрібно лише обмежити наші розповсюдження, щоб вони лежали в прямокутних полях, резюме п'яти номерів обмежує нас.

Ось код R, який генеруватиме аналогічні дані, ніж у статті:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Ось подібний дисплей, зазначений у статті, вищезазначених даних (за винятком я показую тут усі чотири скриньки):

введіть тут опис зображення

Але остерігайтеся, але і гістограми можуть мати проблеми ; Дійсно, ми бачимо тут одну з його проблем, оскільки розподіл у третій «піковій» гістограмі насправді виразно бімодальний; ширина відрізка гістограми просто занадто широка, щоб її показати. Крім того, як в коментарях зазначає Нік Кокс, оцінки щільності ядра можуть також впливати на враження кількості режимів (іноді розмивання режимів ... або іноді пропонування невеликих режимів, де в оригінальному розподілі не існує жодного). Треба подбати про інтерпретацію багатьох поширених екранів.

Існують модифікації боксплоту, які можуть краще вказувати на багатомодальність (серед численних інших сюжети для вази, скрипки та бобові сюжети). У деяких ситуаціях вони можуть бути корисними, але якщо мені цікаво знайти режими, я зазвичай дивлюся на інший тип дисплея.

x4

[1]: Choonpradub, C., & McNeil, D. (2005),
"Чи можна поліпшити коробку?"
Songklanakarin J. Sci. Технол. , 27 : 3, с. 649-657.
http://www.jourlib.org/paper/2081800
pdf


2
Два більш широкі коментарі щодо режимів. 1. Хорошим випробуванням певного шаблону модальності є те, чи повторюється він повторно у зразках однакового розміру. Мій досвід полягає в тому, що режими можуть бути надзвичайно непостійними в цьому сенсі. 2. Розглядаючи режими, завжди варто запитати, чи має режим суттєве тлумачення. Але кожен аргумент може бути помилковим; якщо я правильно пригадую, більшість людей здогадується, що суміш чоловіків і жінок надасть бимодальність розподілу висот, але важко виявити це навіть у великих високоякісних зразках.
Нік Кокс

1
@NickCox дякую; насправді я здогадався, що висота не буде бімодальною; уявіть, що (як приблизне наближення до реальності) ми розглядали два нормальних розподілу з аналогічними стандартними відхиленнями, середні значення яких відрізняються приблизно 1sd, приблизно стільки ж самців, скільки жінок. Тоді насправді комбінований (суміш двох нормалей) розподілу є одномодальним. Реальність трохи складніша, звичайно - розподіл за сумішшю є сумішами етнічних груп, перекошений навіть за статтю та етнічними групами, має різні відхилення і засоби відрізняються більш ніж на 1 sd, але результат (унімодальність) нас не повинен дивувати
Glen_b -Встановіть Моніку

3
Варто позначити, що Дж. Т. Тукі в своєму дослідницькому аналізі даних (Reading, MA: Аддісон-Уеслі, 1977) включив крапковий сюжет даних Релі, що призвів до відкриття аргону, як бімодальну схему, для якої сюжетні коробки марні та інша відображення, у випадку Тукі, крапкового сюжету, потрібне для перегляду структури. Тукі, як відомо, називають сюжетною коробкою і не настільки відомий був його повторним винахідником.
Нік Кокс

7

Існує кілька варіантів виявлення мультимодальності за допомогою R. Дані для наведених нижче діаграм генерували за допомогою трьох режимів (-3,0,1). Boxplot явно перевершує інші (сюжет скрипки виглядає так, що він має різні настройки щільності ядра за замовчуванням), але жоден насправді не розрізняє режими 0 та 1. Насправді мало причин використовувати боксерти вже в епоху комп'ютера. Навіщо викидати інформацію?

введіть тут опис зображення

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.