Розуміння вусів коробки


9

У мене питання щодо інтерпретації вусів боксер. Я читав наступне: "У верхній і нижній частині прямокутника" вуса "показують діапазон у 1,5 рази більше відстані між 0,25- і 0,75-квантовими", але не цілком розумію, що означає "відстань" .

Неможливо мати на увазі масу ймовірності, оскільки між квантилем 0,25 та 0,75 ми, очевидно, завжди маємо однаковий відсоток даних. Яка тоді ідея?

Відповіді:


6

Значення X, що відповідає 75 квантилу мінус значення X, що відповідає 25-му, - це відстань. Наприклад, для тесту SAT Math 620 - це 75-й, а 520 - 25-й квантил. Отже, якщо ви набрали вище 620, ви зробили краще 75% тих, хто взяв тест. Вуса довгі до 1,5 * (620-520) балів.


Добре, але тоді вуса були б однакової довжини по обидва боки коробки (що не обов’язково).
Гість555

8
+1, (трохи більше) повна відповідь полягає в тому, що вуса до 1,5 * IQR, якщо ви не маєте більше даних протягом цього інтервалу, вусики зупиняються. Крім того, будь-які додаткові дані за цією точкою окреслюються окремо як потенційні люди.
gung - Відновити Моніку

З цим невеликим додатковим поясненням зрозуміло зараз, велике спасибі!
Гість555

Я відредагував відповідь на відмінну точку @ gung.
Мастеров Димитрій Вікторович

5
@gung і ще більш повна відповідь полягає в тому, що вуса завжди лежать на існуючій точці даних
hadley

4

Boxplot призначений для узагальнення порівняно невеликого набору даних способом, який чітко показує

  • Центральне значення.

  • Поширення "типових" значень.

  • Індивідуальні значення, які настільки відхиляються від центрального значення відносно розкиду, що їх виділяють для особливої ​​уваги та окремо ідентифікують (наприклад, за назвою). Вони називаються "ідентифікованими значеннями".

Це потрібно зробити надійним чином: це означає, що boxplot не повинен виглядати помітно по-іншому, коли одна або відносно невелика частина значень даних довільно змінюється.

Рішенням, прийнятим його винахідником Джоном Тукі, є систематичне використання статистики замовлень - даних, відсортованих від найнижчих до найвищих. Для простоти (він робив обчислення подумки або олівцем і папером) Тукі зосередився на медіанах : середніх значеннях партій чисел. (Для партій з парними підрахунками Тукі використовував середину двох середніх значень.) Медіана стійка до змін до половини даних, на яких вона базується, що робить її відмінною як надійною статистикою. Таким чином:

  • Центральне значення оцінюється з медіаною всіх даних.

  • Спред оцінюється з різницею між медіан «верхньої половини» - всі дані , що дорівнює або вище середнього - і «нижньої половини» - всі дані рівні або менше , ніж медіана. Ці два медіани називаються верхніми та нижніми «петлями» або «четвертинками». Сьогодні вони, як правило, замінюються речами, які називаються квартілями (на жаль, не мають універсального визначення).

  • Невидимі огорожі для відсіву залишків споруджуються в 1,5 і 3 рази більше за розкид за межі петель (подалі від центральної величини).

    • "Значення кожного кінця, найближчого до внутрішнього огорожі, але все ще всередині", є "сусіднім". "
    • Значення поза першим парканом називаються "пережилими".
    • Значення за другим парканом "далеко".

(Ті, хто досить старий, щоб пам’ятати хіпі арго 60-х, зрозуміють жарт.)

Оскільки розкид - це різниця значень даних, ці огорожі мають ті ж одиниці виміру, що й вихідні дані: це сенс "відстані" у питанні.

Щодо значень даних для ідентифікації, Tukey писав

Ми можемо принаймні визначити крайні значення і, можливо, добре визначити ще кілька.

Будь-який графічний метод відображення медіани, шарнірів та ідентифікованих значень, безсумнівно, заслуговує на те, щоб його називали "боксплотом" (спочатку "графік коробки і вуса"). Паркани зазвичай не зображені. Дизайн Тукі складається з прямокутника, що описує петлі з «талією» на медіані. Ненав'язливі «вуса», що нагадують лінії, простягаються назовні від петель до найпотаємніших ідентифікованих значень (і вище, і внизу поля). Зазвичай ці найпотужніші ідентифіковані значення є суміжними значеннями, визначеними вище.

Отже, поява боксплотів за замовчуванням полягає в тому, щоб поширити вуса на найбільш екстремальні значення, що не є сторонніми, і визначити (за допомогою текстових міток) дані, що містять кінці вусів і всі залишки. Наприклад, вулкан Тупунгатіто - це велике сусіднє значення для даних про висоту вулкана, зображене праворуч від фігури: вус зупиняється на цьому. Тупунгатіто та всі більш високі вулкани виділяються окремо.

Так що це буде відображати дані достовірно, відстань у графіці пропорційна різниці у значеннях даних. (Будь-який відхід від прямої пропорційності вводить "фактор брехні" в термінологію Туфте (1983).)

Малюнок з EDA

Ці два скриньки з книги ЕДА Тукі (стор. 41) ілюструють компоненти. Примітно, що він виявив невідчутні значення у верхньому та нижньому кінцях набору даних про стан ліворуч та одне низьке не відмінне значення висот Вулкана праворуч. Це ілюструє взаємодію правил і суджень, що пронизує книгу.

(Можна сказати, що ці ідентифіковані дані не є сторонніми, тому що ви можете оцінити розташування огорож. Наприклад, петлі висот штату близько 11 000 і 1000, що дає розкид близько 10 000. Помноження на 1,5 і 3 дає відстані 15 000 і 30 000. Таким чином, невидимий верхній паркан повинен бути біля 11 000 + 15 000 = 26 000, а нижній паркан, при 1000 - 15 000, буде нижче нуля. Далекі огорожі були б біля 11 000 + 30 000 = 41 000 і 1000 - 30 000 = -29 000.)


Список літератури

Туфте, Едвард. Візуальне відображення кількісної інформації. Чешир Прес, 1983.

Тукі, Джон. Глава 2, EDA . Аддісон-Веслі, 1977.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.