Яка історія сюжетів коробки, і як еволюціонував дизайн коробки та вусів?


19

Багато джерел датують класичний дизайн "сюжетної коробки" Джоном Тукі та його "схематичним сюжетом" 1970 року. Здається, дизайн з тих пір залишився відносно статичним, тому що скорочена версія Едварда Туфте не змогла приступити до роботи, поки сюжетні скрипки - хоча більш інформативний варіант сюжетної скриньки - залишаються менш популярними. Пропозиція Клівленда про те, що вуса простягаються до 10-го та 90-го відсотків, є деякими прихильниками, див. Кокс (2009) , але це не є нормою.

Хедлі Вікхем та Ліза Стриєвські написали неопубліковану статтю про історію сюжетних скринь, але вона, схоже, не висвітлює історичні попередники сюжетних скринь.

То як виник нинішній, всюдисущий сюжет "коробки та вусів"? З якої форми візуалізації даних вона розвивалася, чи мали ті попередні конструкції якісь істотні переваги, і чому вони, схоже, були затьмарені настільки всебічно у використанні за схемою Tukey? Ілюстрована відповідь була б бонусом, але було б корисно звернутися до посилання, яке заглиблюється глибше, ніж Вікхем і Стриєвський.

Список літератури

  • Кокс, Нью-Джерсі (2009). Speaking Stata: Створення та зміна сюжетних графіків. Stata Journal , 9 (3), 478.
  • Wickham, H. and Stryjewski, L. (2011). 40 років боксерів. http://vita.had.co.nz/papers/boxplots.pdf

1
Окреме обговорення ряду попередників тут: stats.stackexchange.com/questions/125521/… ... Тукі знав про роботу Мері Спірс, але можливо, він, можливо, не бачив жодного з попередніх
Glen_b -Встановити Моніку

Дякую @Glen_b, це була справді дискусія, яку я прочитав, що надихнуло це питання, але мені знадобилося 4 роки, щоб розібратися, і я не зміг відстежити дискусію! (Невдало, що коментарі не з’являються при пошуку на сайті, тому корисна спроба ввести їх у відповідні запитання.)
Silverfish

1
Я використовую пошук Google з site:stats.stackexchange.comналаштуванням, щоб відстежувати речі в коментарях. Мені вдалося запам’ятати достатньо деталей (про те, що це була дискусія між Ніком і я, що стосувалась боксерів, і що я згадав про Шміда), щоб отримати перший удар.
Glen_b -Встановити Моніку

1
Тангенціальне зауваження щодо людей, що втратили коробку. Два правила широко використовуються. Зазвичай за замовчуванням (в R та іншому програмному забезпеченні), що спостереження нижче або вище позначаються як ; правило 1.5IQR. У ранніх версіях Minitab також використовував правило , називаючи більш екстремальних людей "вірогідними", а менш екстремальних - "можливими". Принаймні для приблизно нормальних даних обидва правила показують відсотки витрат, які сильно різняться залежно від розміру вибіркиІснують докази симуляцій, що правило було б більш стійким до 1000-х. Q1-1.5ЯQRQ3+1.5ЯQR3ЯQRн.2,25ЯQR
BruceET

1
github.com/hadley/boxplots-paper містить багато матеріалів, таких як повідомлення анонімних рецензентів із журналу (? _American Statistician_) (короткі та перешкоджаючі) та незалежні, але перекриваючі непрошені огляди Девіда Хоґліна та мене особисто (обидва значно детальніше).
Нік Кокс

Відповіді:


18

Резюме головного виконавчого директора

Історія набагато довша і складніша, ніж багато хто думає, що вона є.

Резюме

Історія того, що Тукі називав сюжетними сюжетами, поєднується з історією того, що зараз часто називають крапковими або смуговими сюжетами (десятки інших назв) та представленнями емпіричної квантильної функції.

Сюжетні коробки у широко актуальних формах найкраще відомі завдяки твору Джона Уайлдера Тукі (1970, 1972, 1977).

Але ідея відображати медіану та квартилі як основні підсумки - разом часто, але не завжди з крапками, що показують усі значення, - приходить щонайменше до дисперсійних діаграм (багатьох назв варіантів), введених географом Персі Робертом Кроу (1933). Це були основні тарифи для географів і використовувались у багатьох підручниках, а також у наукових статтях з кінця 1930-х років.

Біббі (1986, с.56, 59) давав ще більш ранні посилання на подібні ідеї, які викладав Артур Ліон Боулі (пізніше сер Артур) у своїх лекціях про 1897 р. Та на його рекомендацію (Боулі, 1910, с.62; 1952, с.73 ) використовувати мінімум та максимум та 10, 25, 50, 75 та 90% балів як основу для графічного резюме.

Діапазони балів, що показують крайнощі та квартилі, часто приписують Мері Елеонорі Спір (1952), але в моєму читанні менше людей цитують Кеннета У. Хемера (1948). Статті Гемера про статистичну графіку в американському статистиці близько 1950 р. Були винахідливими, вони критично перекусили і залишаються непоганими для читання. (Багато читачів зможуть отримати доступ до них через jstor.org.) На відміну від книг Спір (Spear 1969 - це повторна дія) були доступними та розумними, але навмисно вступними, а не інноваційними чи науковими.

Варіанти коробкових сюжетів, в яких вуса поширюються на вибрані відсотки, більш поширені, ніж здається багатьом. Знову ж таки, рівнозначні сюжети були використані географами з 1930-х років по тому.

Що найоригінальніше у версії сюжетних сюжетів Tukey - це перш за все критерії для визначення точок на хвостах, які потрібно окреслити окремо та визначити як заслуговують детального розгляду, - і настільки ж часто позначають, що змінну слід аналізувати на трансформованій шкалі. Його правило 1,5 IQR з'явилося лише після довгих експериментів. У деяких руках воно мутувало жорстке правило для видалення точок даних, яке ніколи не було наміром Тукі. Ефектна, пам'ятна назва сюжету - не завдала шкоди в забезпеченні набагато ширшого впливу цих ідей. Дисперсійна діаграма на противагу - досить тупий і тужливий термін.

Досить довгий перелік посилань тут, можливо, суперечить виду, не повинен бути вичерпним. Метою є лише надання документації на деякі попередники та альтернативи сюжетної скриньки. Конкретні посилання можуть бути корисними для детальних запитів або якщо вони знаходяться близько до вашого поля. І навпаки, вивчення практик в інших сферах може бути корисним. Графічну - не лише картографічну - експертизу географів часто недооцінювали.

Детальніше

Гібридні сюжетні крапки використовували Кроу (1933, 1936), Метьюс (1936), Хогг (1948), Монкхаус і Вілкінсон (1952), Фермер (1956), Грегорі (1963), Хаммонд і Мак-Каллаг (1974), Льюїс (1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young et al. (2006) та Хендрі та Нільсен (2007) та багато інших. Див. Також Міллер (1953, 1964).

Клівленд (1985), але передбачив Метью (1936) та Гроув (1956), який побудував інтероктильний діапазон, тобто між першим та ін. сьомий октил, а також дальність і міжквартильний діапазон. Дері (1963), Джонсон (1975), Харріс (1999), Майетт (2007), Майетт та Джонсон (2009, 2011) та Давіно та ін. (2014) показали як мінімум, так і мінімум, квартилі, медіану та максимум. Шмід (1954) показав зведені графіки з медіаною, кватилями та 5 та 95% балів. Бентлі (1985, 1988), Девіс (2002), Спенс (2007, 2014) та Мотульський (2010, 2014, 2018) побудували вуса до 5 та 95% балів. Морган і Генріон (1990, с. 211, 241), Спенс (2001, стор. 36), і Готеллі і Еллісон (2004, 2013, стор.72, 110, 213, 416) накреслив вуса на 10% та 90% балів. Гарріс (1999) показав приклади як 5, так і 95% та 10 і 90% балів. "Альтман" (1991, с. 34, 63) та "Грінкрек" (2016) побудували вуса на 2,5% і 97,5% балів. Рейманн та ін. (2008, pp.46-47) накреслив вуса до 5% та 95% та 2% та 98% балів.

Парзен (1979a, 1979b, 1982) гібридизовані коробчасті та квантильні ділянки як квантильні коробки. Див. Також (напр.) Shera (1991), Militký and Meloun (1993), Meloun і Militký (1994). Зауважимо, однак, що квантильний коробковий сюжет Кіна (2010) - це просто коробчастий сюжет із вусами, що тягнуться до крайнощів. Навпаки, квантильні коробкові ділянки JMP, очевидно, є коробковими ділянками з позначками 0,5%, 2,5%, 10%, 90%, 97,5%, 99,5%: див. Sall et al. (2014, с.143-4).

Ось кілька приміток щодо варіантів сюжетів із квантильною коробкою.

pp,1-p-p,1-p

p,1-p

З літератури, яку я бачив, схоже, що жодна з цих ниток - квантилеві графіки або пізніші варіанти (A) (B) (C) - не цитують один одного.

!!! станом на 3 жовтня 2018 р. деталі для деяких посилань потрібно надати у наступній редакції.

Алтман, DG 1991. Практична статистика медичних досліджень. Лондон: Чапман і Холл.

Bentley, JL 1985. Програмування перлів: Вибір. Зв'язок ОСБ 28: 1121-1127.

Bentley, JL 1988. Більше програмування Перли: зізнання кодера. Редінг, MA: Аддісон-Веслі.

Bibby, J. 1986. Примітки до історії викладання статистики. Едінбург: Джон Біббі (Книги).

Боулі, А. Л. 1910. Елементарний посібник зі статистики. Лондон: Макдональд та Еванс. (сьоме видання 1952 р.)

Клівленд, WS 1985. Елементи графічних даних. Монтерей, Каліфорнія: Уедсворт.

Crowe, PR 1933. Аналіз ймовірності опадів: графічний метод та його застосування до європейських даних. Шотландський географічний журнал 49: 73-91.

Crowe, PR 1936. Режим опадів Західних рівнин. Географічний огляд 26: 463-484.

Девіс, JC 2002. Статистика та аналіз даних з геології. Нью-Йорк: Джон Вілі.

Дікінсон, GC 1963. Статистичне картографування та подання статистики. Лондон: Едвард Арнольд. (друге видання 1973 р.)

Дюрі, GH 1963. Східний Мідленд і пік. Лондон: Томас Нельсон.

Фермер, Білорусь, 1956. Опади та водопостачання в сухої зони Цейлону. Географічні нариси про Британські тропічні землі в Сталі, RW та CA Фішера (редактори) . Лондон: Джордж Філіп, 227-268.

Григорій, С. 1963. Статистичні методи та географ. Лондон: Longmans. (пізніші видання 1968, 1973, 1978; видавець, пізніше Лонгман)

Grove, AT 1956. Ерозія ґрунту в Нігерії. Географічні нариси про Британські тропічні землі в Сталі, RW та CA Фішера (редактори) . Лондон: Джордж Філіп, 79-111.

Хемер, КВ 1948. Діапазонні діаграми. Американський статистик 2 (2): 23.

Гендрі, ДФ та Б. Нільсен. 2007. Економетричне моделювання: вірогідний підхід. Прінстон, Нью-Джерсі: Прінстонський університетський прес.

Hogg, WH 1948. Діаграми диспергування опадів: обговорення їх переваг та недоліків. Географія 33: 31-37.

Ібрекк, Х. та М. Г. Морган. 1987. Графічне повідомлення невизначених величин нетехнічним людям. Аналіз ризику 7: 519-529.

Джонсон, BLC 1975. Бангладеш. Лондон: Heinemann Education.

Keen, KJ 2010. Графіка для статистики та аналізу даних за допомогою R. Boca Raton, FL: CRC Press. (2-е видання 2018)

Льюїс, КР 1975. Аналіз змін у міському статусі: тематичне дослідження в Середньому Уельсі та на прикордонні середнього Уельсу. Операції Інституту британських географів 64: 49-65.

Martinez, WL, AR Martinez та JL Solka. 2011. Дослідницький аналіз даних за допомогою MATLAB. Бока Ратон, штат Флорида: Преса CRC.

Matthews, HA 1936. Новий погляд на деякі знайомі індійські опади. Шотландський географічний журнал 52: 84-97.

Matthews, JA 1981. Кількісний та статистичний підходи до географії: практичний посібник. Оксфорд: Пергам.

Мелун, М. та Дж. Міліткі. 1994. Комп'ютерне оброблення даних в аналітичній хіміометрії. I. Дослідницький аналіз універсальних даних. Хімічні статті 48: 151-157.

Militký, J. та M. Meloun. 1993. Деякі графічні посібники для однозначного аналізу даних дослідницької діяльності. Analytica Chimica Acta 277: 215-221.

Міллер, А.А. 1953. Шкіра Землі. Лондон: Метюен. (2-е видання 1964 р.)

Monkhouse, FJ та HR Wilkinson. 1952. Карти та схеми: їх складання та побудова. Лондон: Метюен. (пізніші видання 1963, 1971)

Морган, М. Г. та М. Генріон. 1990. Невизначеність: Посібник з подолання невизначеності в кількісному аналізі ризиків та політики. Кембридж: Кембриджський університетський прес.

Майетт, Дж. Дж. 2007. Створення сенсу даних: практичний посібник з розвідувального аналізу даних та обміну даними. Хобокен, штат Нью-Джерсі: Джон Вілі.

Myatt, GJ та Johnson, WP 2009. Ознайомлення з даними II: практичний посібник з візуалізації даних, вдосконалених методів обміну даними та додатків. Хобокен, штат Нью-Джерсі: Джон Вілі.

Myatt, GJ та Johnson, WP 2011. Ознайомлення з даними III: Практичний посібник з проектування інтерактивних візуалізацій даних. Хобокен, штат Нью-Джерсі: Джон Вілі.

Ottaway, B. 1973. Дісперсійні діаграми: новий підхід до відображення дат вуглецю-14. Археометрія 15: 5-12.

Парзен, Е. 1979а. Непараметричне статистичне моделювання даних. Журнал, Американська статистична асоціація 74: 105-121.

Парзен, Е. 1979б. Погляд на квантильну функцію щільності на надійну оцінку. У Launer, RL та GN Wilkinson (eds) Надійна статистика. Нью-Йорк: Академічна преса, 237-258.

Парзен, Е. 1982. Моделювання даних за допомогою квантової та квантильної функцій щільності. У Тіаго де Олівейра, Дж. Та Епштейн, Б. (ред.) Деякі останні досягнення в статистиці. Лондон: Academic Press, 23-52.

Квін, Г.П. та М.Д. Кеуф. 2002. Експериментальне проектування та аналіз даних для біологів. Кембридж: Кембриджський університетський прес.

Рейман, К., П. Фільцмосер, Р. Г. Гаррет і Р. Даттер. 2008. Пояснення аналізу статистичних даних: Прикладна статистика навколишнього середовища з Р. Чичестер: Джон Вілей.

Sall, J., A. Lehman, M. Stephens та L. Creighton. 2014. Статистика початку JMP: Посібник зі статистики та аналізу даних за допомогою JMP. Кері, штат Північна Кароліна: Інститут SAS.

Shera, DM 1991. Деякі способи використання кількісних сюжетів для покращення подання даних. Наука та статистика обчислювальної техніки 23: 50-53.

Спірс, ME 1952. Статистика графіків. Нью-Йорк: McGraw-Hill.

Спірс, М.Є. 1969. Практичні методики діаграми. Нью-Йорк: McGraw-Hill.

Tukey, JW 1970.
Дослідницький аналіз даних. Обмежена попередня версія. Том І. Редінг, МА: Аддісон-Веслі.

Tukey, JW 1972. Деякі графічні та напів графічні екрани. У Bancroft, TA та Brown, SA (редактори) Статистичні статті на честь Джорджа У. Снедекора. Еймс, ІА: Айова, Державний університетський прес, 293-316. (також доступний за адресою http://www.edwardtufte.com/tufte/tukey )

Tukey, JW 1977. Дослідницький аналіз даних. Редінг, MA: Аддісон-Веслі.

Wild, CJ та GAF Seber. 2000. Шанси зустрічі: перший курс з аналізу даних та висновку. Нью-Йорк: Джон Вілі.


У мене є інший матеріал про коробці-процентні ділянки, гірські ділянки та інші гібридні форми, які потрібно додати пізніше.
Нік Кокс

Дуже ціную цю відповідь, дякуючи Ніку - з нетерпінням чекаю доповнень про альтернативи та гібриди. Я думаю, що, мабуть, справедливо сказати, що "сюжетні коробки" та друзі "утворюють" сімейство "візуалізації даних, хоча я не знаю, як слід називати цю сім'ю
Silverfish

Спасибі! якщо володіння ліній або інших маркерів, що вказують на медіану та квартілі, визначає коробку, то були сюжетні коробки задовго до того, як Тукі назвав їх, і я впевнений, що він ніколи не стверджував іншого. Однак багато мініатюрних історій у підручниках та інших місцях здаються суттєвими; здебільшого, це просто мем, повторений без доказів, як історія про те, що лемінги стрибають зі скелі як колективне самогубство. Багато альтернатив графіків графіків навіть не показують коробку в жодному сенсі, тому поле широко відкрите для включення будь-якого графічного зображення одновимірних розподілів.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.