Як масштабувати сюжетні скрипки для порівнянь?


14

Я намагаюся малювати сюжетні скрипки і цікавлюсь, чи існує прийнята найкраща практика їх масштабування по групах. Ось три варіанти, які я спробував за допомогою mtcarsнабору даних R (Автомобільні тенденції автомобілів 1973 року, знайдені тут ).

Рівні ширини

Здається, те, що робить оригінальний папір *, а що vioplotробить R ( приклад ). Добре для порівняння форми.

Скрипки на рівній площі

Рівні райони

Відчуває себе правильно, оскільки кожен графік є графіком ймовірності, і тому площа кожного повинна дорівнювати 1,0 в деякому координатному просторі. Добре для порівняння щільності в межах кожної групи, але здається більш доцільним, якщо ділянки перекриті.

Сюжети для скрипки з рівною шириною

Зважені райони

Як рівна площа, але зважена за кількістю спостережень. 6-циліндровий стає відносно тоншим, оскільки таких машин менше. Добре для порівняння щільності по групах.

Зважені площі скрипки

* Скрипкові сюжети: синергічні відстеження щільності коробки (DOI: 10.2307 / 2685478)


1
Мета сюжетів значною мірою визначатиме, які рішення є підходящими. Що ж тоді ви намагаєтесь показати з ними?
whuber

@whuber Добре запитання, хоча прямої відповіді у мене немає. Я намагаюся надати графіку для EDA і шукаю хороший загальний стандарт за замовчуванням (а також чи є інші варіанти досить корисними для виведення на поверхню).
xan

Я хотів би запропонувати вам керувати сюжетами відповідно до ваших цілей, а не приймати дефолт.
whuber

Я б припустив, що ваша версія «зважених районів» була «Добре для порівняння підгруп населення», оскільки це може мати сенс додавати ширини, щоб отримати форму всієї сукупності.
Генрі

Я віддаю перевагу рівним зонам, щоб зберегти візуальний вплив форми розподілів. Потім доповніть графік термометрами, що показують розміри зразків, або просто використовуйте текстові зображення розмірів зразків поруч зі скрипками.
Френк Харрелл

Відповіді:


4

Діаграми поля використовуються для схематичних підсумків розподілу. Скрипкові сюжети - це просто коробкові сюжети, в яких коробки Q1, Q2 та Q3 замінюються широким діапазоном квантових елементів. З цієї причини, я вважаю, що прийнята практика - використовувати однакову ширину для груп.

Однак ви підкреслюєте хороший момент: як слід порівнювати щільність у групах? Відповідь залежить від того, чи розглядаєте ви кожну групу як власну чисельність населення або як підгрупу.

ΣiПi=1


Скрипкові сюжети спочатку були введені та визначені як гібридна коробчаста ділянка та слід густини. Швидкий пошук Google показує, що на практиці багато сюжетів, оприлюднених, оскільки сюжети для скрипок опускають коробку, і багато хто не показує квантилів як таких. Отже, визначення тут широко відкриті.
Нік Кокс

5

Чесно кажучи, я думаю, що ви підходите до нього з неправильного напрямку. Усі три сюжети чітко повідомляють вам інформацію, яка має значення - інакше ви б не розглядали, який сюжет використовувати. Дослідницький аналіз даних - це розуміння ваших даних. Там, де це відповідає очікуванню. Де цього немає. Як вона формується над декількома змінними.

Весь сенс виконання EDA полягає у оцінці того, чи добре виправдані наші за замовчуванням, чи то припущення щодо розподілу чи узгодженості, статистична модель, яка збиралася використовуватись тощо. Таким чином, концепція "EDA" за замовчуванням дещо хибна.

Подивіться на всі - або принаймні всі сюжети, які стосуються питання, яке ви маєте намір задати. Немає підстав заважати собі "Що цікавого" та "Що я буду ігнорувати" на етапі ЗНО. І якщо ми просто подаємо дані за замовчуванням, це не справді EDA в першу чергу.


+1 за просвітливі зауваження щодо ЄАВ, хоча досі не зрозуміло (чи буде ОП після ЕДА чи ні ...
chl

@chl Деякі коментарі ОП говорять про те, що він шукає. Якщо це просто "яка з них корисніша", відповідь, яку я боюся, стає ще більш неоднозначною "ну, що ви хочете показати?"
Фоміт

Ах, я пропустив цей коментар ... Тож ваша відповідь знову вартує +1, але я не можу :(
chl

4

А як щодо пропускної здатності? Ви думали про це?

Якщо ви використовуєте параметри програмного забезпечення за замовчуванням для отримання PDF-файлу, ви, швидше за все, використовуєте правило великого пальця для оптимальної пропускної здатності ядра Гаусса. Ця "оптимальна пропускна здатність" може відрізнятись тоді для кожного підмножини. А тепер запитайте себе: чи форми все ще порівнянні? Можливо, можна обміняти ту саму змінну (оцінка щільності ядра) з подвійними стандартами.

Для оцінки щільності ядра були розроблені чіткі правила для отримання потрібної ширини смуги (певна перехресна перевірка), але для скрипкових сюжетів вони в основному ігноруються. Можливо, це важливо, коли розміри вибірки сильно відрізняються.

У мене зараз ця проблема. Що ви думаєте про це? Як ти це вирішуєш? Будь-які коментарі високо оцінені.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.