Існує узагальнення стандартних графічних діаграм, які мені відомі, в яких довжина вусів регулюється для врахування перекошених даних. Деталі краще пояснюються в дуже чіткому та стислому документі (Vandervieren, E., Hubert, M. (2004) "Налагоджена коробка для косих розподілів", див. Тут ).
Існує реалізація цього ( robustbase :: adjbox () ), а також MatLab один (в бібліотеці під назвою Терезів ).Rrobustbase::adjbox()libra
Я особисто вважаю це кращою альтернативою трансформації даних (хоча це також засноване на спеціальних правилах, див. Довідку).
Між іншим, я знаходжу, що я маю щось додати до прикладу Валера. Щодо того, що ми обговорюємо поведінку вусів, ми дійсно повинні також враховувати, що відбувається при розгляді забруднених даних:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
У цій моделі забруднення B1, по суті, має нормальний розподіл журналу для збереження 20 відсотків даних, які є наполовину лівими, наполовину правішими (точка розбиття adjbox така ж, як і у звичайних бокс-плат, тобто передбачається, що максимум 25 відсотків даних можуть бути поганими).
Графіки зображують класичні рамки перетворених даних (з використанням перетворення квадратного кореня)
і відрегульована боксплотт неперетворених даних.
Порівняно з відрегульованими коробками, колишній параметр маскує справжніх людей, що виділяються, і відзначає хороші дані як ексклюзивні. Взагалі, це буде спроможним приховати будь-які докази асиметрії в даних, класифікувавши пункти правопорушень як переживаючі.
У цьому прикладі підхід використання стандартного боксплотта на квадратному корені даних знаходить 13 осіб, що випадають (всі праворуч), тоді як відрегульований boxplot знаходить 10 правого та 14 лівих залишків.
РЕДАКТУВАННЯ: відрегульовані графіки коробки в двох словах.
У «класичних» коробках вуса розміщуються за адресою:
Q1Q3 + 1,5 * IQR
Q1Q3 - 75-й перцентиль даних. Основне правило - вважати все поза огорожею сумнівними даними (огорожа - це проміжок між двома вусами).
Це правило є спеціальним: обґрунтування полягає в тому, що якщо незабруднена частина даних приблизно гауссова, то менше 1% хороших даних буде класифіковано як погане за допомогою цього правила.
Слабкою стороною цього правила забору, як вказував ОП, є те, що довжина двох вусів однакова, тобто правило огорожі має сенс лише в тому випадку, якщо незабруднена частина даних має симетричний розподіл.
Популярний підхід - збереження правила забору та адаптація даних. Ідея полягає в перетворенні даних за допомогою певного перекосу, що виправляє монотонне перетворення (квадратний корінь або журнал або загалом перетворення кокс-кокса). Це дещо безладний підхід: він спирається на кругову логіку (трансформацію слід вибирати так, щоб виправити негнучкість незабрудненої частини даних, яка на даному етапі є непомітною) і, як правило, ускладнює інтерпретацію даних. візуально. У будь-якому випадку це залишається дивним порядком, коли людина змінює дані, щоб зберегти те, що є врешті-решт тимчасовим правилом.
Альтернативою є залишити дані недоторканими та змінити правило вуса. Відрегульована боксерська плита дозволяє змінювати довжину кожного вуса залежно від індексу, що вимірює нахил незабрудненої частини даних:
Q1exp(M,α)Q3exp(M,β)
Mα β
M≈0
MMαβ
Q1exp(−4M)Q3exp(3M)M≥0
Q1exp(−3M)Q3exp(4M) M< 0