Boxplot призначений для узагальнення порівняно невеликого набору даних способом, який чітко показує
Центральне значення.
Поширення "типових" значень.
Індивідуальні значення, які настільки відхиляються від центрального значення відносно розкиду, що їх виділяють для особливої уваги та окремо ідентифікують (наприклад, за назвою). Вони називаються "ідентифікованими значеннями".
Це потрібно зробити надійним чином: це означає, що boxplot не повинен виглядати помітно по-іншому, коли одна або відносно невелика частина значень даних довільно змінюється.
Рішенням, прийнятим його винахідником Джоном Тукі, є систематичне використання статистики замовлень - даних, відсортованих від найнижчих до найвищих. Для простоти (він робив обчислення подумки або олівцем і папером) Тукі зосередився на медіанах : середніх значеннях партій чисел. (Для партій з парними підрахунками Тукі використовував середину двох середніх значень.) Медіана стійка до змін до половини даних, на яких вона базується, що робить її відмінною як надійною статистикою. Таким чином:
Центральне значення оцінюється з медіаною всіх даних.
Спред оцінюється з різницею між медіан «верхньої половини» - всі дані , що дорівнює або вище середнього - і «нижньої половини» - всі дані рівні або менше , ніж медіана. Ці два медіани називаються верхніми та нижніми «петлями» або «четвертинками». Сьогодні вони, як правило, замінюються речами, які називаються квартілями (на жаль, не мають універсального визначення).
Невидимі огорожі для відсіву залишків споруджуються в 1,5 і 3 рази більше за розкид за межі петель (подалі від центральної величини).
- "Значення кожного кінця, найближчого до внутрішнього огорожі, але все ще всередині", є "сусіднім". "
- Значення поза першим парканом називаються "пережилими".
- Значення за другим парканом "далеко".
(Ті, хто досить старий, щоб пам’ятати хіпі арго 60-х, зрозуміють жарт.)
Оскільки розкид - це різниця значень даних, ці огорожі мають ті ж одиниці виміру, що й вихідні дані: це сенс "відстані" у питанні.
Щодо значень даних для ідентифікації, Tukey писав
Ми можемо принаймні визначити крайні значення і, можливо, добре визначити ще кілька.
Будь-який графічний метод відображення медіани, шарнірів та ідентифікованих значень, безсумнівно, заслуговує на те, щоб його називали "боксплотом" (спочатку "графік коробки і вуса"). Паркани зазвичай не зображені. Дизайн Тукі складається з прямокутника, що описує петлі з «талією» на медіані. Ненав'язливі «вуса», що нагадують лінії, простягаються назовні від петель до найпотаємніших ідентифікованих значень (і вище, і внизу поля). Зазвичай ці найпотужніші ідентифіковані значення є суміжними значеннями, визначеними вище.
Отже, поява боксплотів за замовчуванням полягає в тому, щоб поширити вуса на найбільш екстремальні значення, що не є сторонніми, і визначити (за допомогою текстових міток) дані, що містять кінці вусів і всі залишки. Наприклад, вулкан Тупунгатіто - це велике сусіднє значення для даних про висоту вулкана, зображене праворуч від фігури: вус зупиняється на цьому. Тупунгатіто та всі більш високі вулкани виділяються окремо.
Так що це буде відображати дані достовірно, відстань у графіці пропорційна різниці у значеннях даних. (Будь-який відхід від прямої пропорційності вводить "фактор брехні" в термінологію Туфте (1983).)
Ці два скриньки з книги ЕДА Тукі (стор. 41) ілюструють компоненти. Примітно, що він виявив невідчутні значення у верхньому та нижньому кінцях набору даних про стан ліворуч та одне низьке не відмінне значення висот Вулкана праворуч. Це ілюструє взаємодію правил і суджень, що пронизує книгу.
(Можна сказати, що ці ідентифіковані дані не є сторонніми, тому що ви можете оцінити розташування огорож. Наприклад, петлі висот штату близько 11 000 і 1000, що дає розкид близько 10 000. Помноження на 1,5 і 3 дає відстані 15 000 і 30 000. Таким чином, невидимий верхній паркан повинен бути біля 11 000 + 15 000 = 26 000, а нижній паркан, при 1000 - 15 000, буде нижче нуля. Далекі огорожі були б біля 11 000 + 30 000 = 41 000 і 1000 - 30 000 = -29 000.)
Список літератури
Туфте, Едвард. Візуальне відображення кількісної інформації. Чешир Прес, 1983.
Тукі, Джон. Глава 2, EDA . Аддісон-Веслі, 1977.