Правила "Коли користуватися boxplot та коли barplot" (великий палець?)


14

Як графік, так і вус, графік та смугова діаграма є відповідною графікою для ANOVA відповідно до книги The R (Crawley, 2013), але яка є більш доречною ? Я думаю, це залежить від ситуації ... чи може мені хтось допомогти?


5
" Хоча одну проблему можна було б вирішити кількома альтернативними тестами - завжди є лише один тест, який є найбільш підходящим для використання ", - я б не погодився з цим реченням; Я не думаю, що це завжди правда.
Glen_b -Встановити Моніку

5
Я згоден з @Glen_b тут і припускаю, що навіть ця редакція не вистачає ключового моменту. Визначення найбільш підходящого тесту залежить мінімально від того, щоб знати точний процес формування даних, який, скажемо так, незвично. Частіше зустрічається декілька можливих тестів з різними перевагами та недоліками.
Нік Кокс

1
Я не думаю, що я б навіть згадував (гіпотезу чи значимість) тести в будь-якій короткій характеристиці хорошого статистичного мислення ... Я думаю, що це побічна проблема. Ваше питання досить чітке без нього.
Нік Кокс

Відповіді:


18

Спеціально для графічної ілюстрації ANOVA:

  • Схематична діаграма або смугова діаграма є набагато кращою, ніж нічого графічно для ANOVA, але як це часто побудовано, обидва є непрямими або неповними як графічний підсумок.

  • ANOVA - це порівняння засобів у контексті варіацій одного або декількох видів, тому найбільш підходяща графіка відображала б, як мінімум, засоби, а також необроблені дані. Групові стандартні відхилення (SD) або пов'язані величини не принесуть шкоди.

  • =-+-1,5 IQR. Така конвенція може бути корисною для показу брутальних людей, які можуть бути проблематичними для ANOVA, але ні медіани, ні квартілі не грають ніякої ролі в ANOVA, і чи приблизні засоби для медіанів є пунктом, який слід перевіряти, чи не вважати. Як правило, досвідчені аналітики даних приймають, наприклад, виражене виражене відшарування та / або асиметрію розподілу як ознаку проблеми, яка потребує дій, таких як перетворення даних або потреба у узагальненій лінійній моделі з функцією зв'язку неідентифікації. Тим не менш, дивно, скільки підручників та інших рахунків показують сюжетні графіки під час подання ANOVA, але не згадуйте про слонів, які не знаходяться в кімнаті, про засоби, які не побудовані.

  • І навпаки, найпоширеніший вид даної діаграми в цьому контексті узагальнює дані за допомогою засобів SD та SD або стандартних помилок, але інакше не допускає відображення окремих точок даних. Так, наприклад, люди, що перебувають у віці, або позначена асиметрія можуть бути виведені лише з позалінійних засобів або завищеної мінливості в межах окремих груп.

Як правило, є багато пропозицій про те, які види графіків корисні, але мало консенсусу щодо того, які найкращі. Я б запропонував як критерій, який показує хороший графік

  • Повна закономірність змін даних, принаймні як фон або контекст

  • Відповідні резюме даних, зокрема ті, що стосуються моделі, яка розважається, або дескрипторів, що розглядаються

  • Вказівки на можливі проблеми з даними, що викликають сумніви щодо припущень, які робляться.

Існує кілька конструкцій, які допомагають з ANOVA, такі як крапкові або смугові сюжети з доданими засобами та SE.

Ця стаття Джона Тукі пояснює різницю між пропагандистськими графіками та аналітичними графіками, що тут доречно. Занадто багато графічних ілюстрацій ANOVA - це пропагандистські графіки (дивіться, групи дуже різні) без особливого аналізу (а що ще ми можемо дізнатися про дані чи обмеження методики у цій програмі?).


Отже, як щодо сюжетних скриптів, в ідеалі із середнім, sd та атрибутом?
ziggystar

Сюжетні скрипки можуть бути корисними. Особисто я віддаю перевагу чомусь ближчому до необроблених даних, щоб я також міг побачити модальність та детальність.
Нік Кокс

8

Будь ласка, не плутайте між барними діаграмами (один бар використовується для показу кожної кількості інтересів) та динамітними сюжетами (один бар показує середнє значення для кожної групи, плюс смуги помилок). Дінамітні сюжети НІКОЛИ не прийнятні, оскільки вони приховують розповсюдження даних без будь-якої причини.

Так, я розумію, що це, безумовно, найпоширеніший тип сюжету. Це велика проблема, яка відображає (низьку) важливість, яку дослідники надають формі своїх даних. Якби ви були детективом, який шукав зброю для вбивства, було б краще, якби свідок сказав вам 1) лише місце знаходження та розмір зброї? або 2) розташування, розміри та форму?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


Чи є у вас інші ресурси, чому динамітні сюжети не є ідеальними?
mguzmann

@mguzmann Вибачте, я ні. Мені також було цікаво, хто придумав цю ідею, її прийняття з часом тощо, і не зміг знайти на цьому нічого. Я думаю, що це розвинулося з таблиць звітів про значення +/- помилки за дні до комп'ютерів. Я бачив документи 1930-х років, в яких вдається опублікувати таблиці повного набору даних, тому я не впевнений, що практика теж коли-небудь була виправданою. Наприклад: Hedrich AW. Щомісячні оцінки дитячого населення, "сприйнятливого" до кору, 1900-1931 рр., Балтімор, Меріленд. Am J Hyg 1933; 17: 613-636.
Ливид
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.