Чи існує варіант коробки для розподілених даних Пуассона?


33

Мені хотілося б дізнатися, чи існує варіант боксплотів, адаптований до розподілених даних Пуассона (чи, можливо, інших розподілів)?

При гауссовому розподілі вуса, розміщені при L = Q1 - 1,5 IQR і U = Q3 + 1,5 IQR, боксплот має властивість того, що буде приблизно стільки ж низьких залишків (балів нижче L), скільки є високих вибухів (балів вище U ).

Якщо дані розповсюджені Пуассоном, це більше не вдається, оскільки через позитивну косисть ми отримуємо Pr (X <L) <Pr (X> U) . Чи є альтернативний спосіб розмістити вуса таким чином, щоб він "підходив" до пуассонового розподілу?


2
Спробуйте спершу записати його Ви також можете сказати, до чого ви хочете, щоб ваш боксер був «добре адаптований».
кон'югатприор

2
Існує одна проблема з такою модифікацією - люди звикли до стандартного визначення boxplot і, швидше за все, припускають це, дивлячись на сюжет, подобається вам це чи ні. Таким чином, це може принести більше плутанини, ніж виграш.

@mbq:> річ з boxplots полягає в тому, що вони поєднують дві особливості в одному інструменті; функція візуалізації даних (коробка) та функція виявлення зовнішньої форми (вуса). Те, що ви говорите, абсолютно вірно щодо колишнього, але пізніше може використовувати коригування перекосу.
user603

@conjugateprior Ось зразок Пуассона: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... помічаєте проблему із простою реєстрацією журналів?
Glen_b -Встановіть Моніку

@Glen_b Ось так, це коментар, а не відповідь. І чому він має дві частини.
кон'югатприор

Відповіді:


31

Boxplots не були розроблені для забезпечення низької ймовірності перевищення кінців вусів у всіх випадках: вони призначені і зазвичай використовуються як прості графічні характеристики основної маси даних. Як такі, вони добре, навіть якщо дані мають дуже перекошені розподіли (хоча вони можуть виявити не стільки інформації, скільки вони приблизно про невідомі розподіли).

Коли коробки розсипаються, як і при розповсюдженні Пуассона, наступним кроком є ​​повторне вираження основної змінної (з монотонною, зростаючою трансформацією) та перемальовування короб. Оскільки дисперсія розподілу Пуассона пропорційна його середньому, хорошим перетворенням для використання є квадратний корінь.

Кожен боксер зображує 50 малюнків в iid з розподілу Пуассона із заданою інтенсивністю (від 1 до 10, з двома випробуваннями для кожної інтенсивності). Зауважте, що косості мають низький рівень.

сторонні бокси

Ті ж дані в квадратній кореневій шкалі, як правило, мають боксплоти, які трохи симетричніші (за винятком найменшої інтенсивності) мають приблизно рівні IQR, незалежно від інтенсивності).

коробки перетворених даних

Підсумовуючи, не змінюйте алгоритм boxplot: замість цього повторно висловіть дані.


Між іншим, відповідні шанси на обчислення такі: який шанс, що незалежна нормальна змінна перевищить верхню (нижню) огорожу U ( L ), як оцінено з n незалежних креслень того ж розподілу? XULn Це пояснює той факт, що огорожі в коробці не обчислюються з базового розподілу, а оцінюються за даними. У більшості випадків шанси набагато перевищують 1%! Наприклад, тут (на основі 10 000 випробувань Монте-Карло) є гістограма журналу (основа 10) шансів на випадок :n=9

гістограма шансів

(Оскільки нормальний розподіл симетричний, ця гістограма стосується обох огорож.) Логарифм 1% / 2 становить приблизно -2,3. Ясна річ, більшість часу ймовірність більша за цю. Близько 16% часу це перевищує 10%!

Виявляється (я не буду захаращувати цю відповідь деталями), що розподіл цих шансів можна порівняти зі звичайним випадком (для малих n ) навіть для розподілів Пойсона за інтенсивністю лише 1, що досить перекошено. Основна відмінність полягає в тому, що зазвичай менше шансів знайти низьку сторонність і трохи більше шансів знайти високу.


1
+1, я вже не бачив цієї теми. Я зробив (я вважаю) той самий пункт, який обговорюється тут після горизонтального правила, по-іншому в цій публікації: чи видаляти випадки, які позначені статистичними програмними засобами як застарілі .
gung - Відновіть Моніку

Так, це той самий пункт @ gung - і ви розмістили там гарну відповідь.
whuber

26

Існує узагальнення стандартних графічних діаграм, які мені відомі, в яких довжина вусів регулюється для врахування перекошених даних. Деталі краще пояснюються в дуже чіткому та стислому документі (Vandervieren, E., Hubert, M. (2004) "Налагоджена коробка для косих розподілів", див. Тут ).

Існує реалізація цього ( robustbase :: adjbox () ), а також MatLab один (в бібліотеці під назвою Терезів ).Rrobustbase::adjbox()бібліотека

Я особисто вважаю це кращою альтернативою трансформації даних (хоча це також засноване на спеціальних правилах, див. Довідку).

Між іншим, я знаходжу, що я маю щось додати до прикладу Валера. Щодо того, що ми обговорюємо поведінку вусів, ми дійсно повинні також враховувати, що відбувається при розгляді забруднених даних:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

У цій моделі забруднення B1, по суті, має нормальний розподіл журналу для збереження 20 відсотків даних, які є наполовину лівими, наполовину правішими (точка розбиття adjbox така ж, як і у звичайних бокс-плат, тобто передбачається, що максимум 25 відсотків даних можуть бути поганими).

Графіки зображують класичні рамки перетворених даних (з використанням перетворення квадратного кореня)

класична боксплотформа на квадратній кореневій трансформації даних

і відрегульована боксплотт неперетворених даних.

відрегульоване поле неперетворених даних

Порівняно з відрегульованими коробками, колишній параметр маскує справжніх людей, що виділяються, і відзначає хороші дані як ексклюзивні. Взагалі, це буде спроможним приховати будь-які докази асиметрії в даних, класифікувавши пункти правопорушень як переживаючі.

У цьому прикладі підхід використання стандартного боксплотта на квадратному корені даних знаходить 13 осіб, що випадають (всі праворуч), тоді як відрегульований boxplot знаходить 10 правого та 14 лівих залишків.

РЕДАКТУВАННЯ: відрегульовані графіки коробки в двох словах.

У «класичних» коробках вуса розміщуються за адресою:

Q1Q3 + 1,5 * IQR

Q1Q3 - 75-й перцентиль даних. Основне правило - вважати все поза огорожею сумнівними даними (огорожа - це проміжок між двома вусами).

Це правило є спеціальним: обґрунтування полягає в тому, що якщо незабруднена частина даних приблизно гауссова, то менше 1% хороших даних буде класифіковано як погане за допомогою цього правила.

Слабкою стороною цього правила забору, як вказував ОП, є те, що довжина двох вусів однакова, тобто правило огорожі має сенс лише в тому випадку, якщо незабруднена частина даних має симетричний розподіл.

Популярний підхід - збереження правила забору та адаптація даних. Ідея полягає в перетворенні даних за допомогою певного перекосу, що виправляє монотонне перетворення (квадратний корінь або журнал або загалом перетворення кокс-кокса). Це дещо безладний підхід: він спирається на кругову логіку (трансформацію слід вибирати так, щоб виправити негнучкість незабрудненої частини даних, яка на даному етапі є непомітною) і, як правило, ускладнює інтерпретацію даних. візуально. У будь-якому випадку це залишається дивним порядком, коли людина змінює дані, щоб зберегти те, що є врешті-решт тимчасовим правилом.

Альтернативою є залишити дані недоторканими та змінити правило вуса. Відрегульована боксерська плита дозволяє змінювати довжину кожного вуса залежно від індексу, що вимірює нахил незабрудненої частини даних:

Q1exp(M,α)Q3exp(M,β)

Mα β

M0

MMαβ

Q1exp(4M)Q3exp(3M)M0

Q1exp(3M)Q3exp(4M)М<0


1
Мені було б цікаво дізнатись, як ти вважаєш мій приклад "непосидним" - просто брендування його як такого не є конструктивним. Я визнаю, що приклад дещо розчаровує в тому сенсі, що трансформація даних не представляє собою значного покращення. У цьому винні дистрибуції Пуассона: вони просто недостатньо перекошені, щоб вартий турбуватися у всьому цьому аналізі!
whuber

@whuber:> по-перше, вибачте за тон: це було з неодаленого першого чернету, і він був виправлений (я зазвичай пишу скорочені абзаци, позначаються як нотатки до себе, потім кілька разів переходьте їх - цей загубився в тривалий взаємозалежний відгук). Тепер для самого критика: ваш приклад зображує поведінку рішення, використовуючи перетворення у випадку незабруднених даних. IMHO правило вуса - можливо попередньо - оцінювати з урахуванням моделі забруднення.
user603

@user Дякую за пояснення. Я не заперечую проти критики, що цікаво, і я ціную посилання на коригувані коробки. (+1)
whuber

Я погоджуюся з user603, що є різниця в тому, чи ви перевіряєте чистий розподіл (наприклад, у відповіді whubers) чи маєте дані з розповсюдження, а також деякі люди, що переживають (обговорюється тут як зараження ). З моєї точки зору, в реальних налаштуваннях використовується коробчастий апарат для сканування вихованих людей. Згодом, аналіз боксерів, який омиває людей, що втрачають люди, якимось чином не вистачає суті. Отже, ця відповідь, здається, краще слугує меті використання коробних машин.
Генрік

2
@Henrik Ідентифікація людей, що не впадають у життя, є лише однією з багатьох цілей боксерів. Підхід Тукі був першим, щоб знайти відповідне повторне вираження даних, що зробило середину їх розподілу приблизно симетричною. Це унеможливлює будь-яке регулювання косості. Це вже досягає багатьох з точки зору дозволу на порівняння серед боксерів, і саме там вони стають справді корисними. "Налаштування" вусів повністю не вистачає цього принципового питання. Тому я б насторожено ставлюсь до коригування: його потреба є сигналом про те, що аналіз робиться не так добре.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.