Чи є верхня межа кількості інтервалів в гістограмі?


10

Я прочитав кілька статей та уривків із книг, в яких пояснюється, як вибрати достатню кількість інтервалів (бункерів) для гістограми набору даних, але мені цікаво, чи існує жорстка максимальна кількість інтервалів на основі кількості балів у набір даних або якийсь інший критерій.

Передумови: Причина, яку я запитую, полягає в тому, що я намагаюся писати програмне забезпечення на основі процедури з дослідницької роботи. Один крок у процедурі - створити кілька гістограм із набору даних, а потім вибрати оптимальну роздільну здатність на основі характерної функції (визначеної авторами статті). Моя проблема полягає в тому, що автори не згадують верхню межу для кількості інтервалів для тестування. (У мене є сотні наборів даних для аналізу, і кожен може мати різну "оптимальну" кількість бункерів. Також важливо, щоб було обрано оптимальне число бункерів, тому вручну дивитись на результати та збирати хороший не буде робота.)

Чи просто встановлення максимальної кількості інтервалів на кількість точок у наборі даних є хорошим орієнтиром, чи є якийсь інший критерій, який зазвичай використовується у статистиці?


Ви маєте на увазі бункери однакового розміру (тобто бункери, які мають однаковий інтервал)?
Адам Річковський

Я вважаю, що відповідь залежатиме від алгоритму, який ви намагаєтеся реалізувати. Я думаю, що питання є неповним, якщо ви не надасте посилання на цей дослідницький документ.
Адам Річковський

Кількість балів, безумовно, теоретичний максимум, але це майже не була би гістограмою, це була б дивно відформатована смуга або сюжетна килимка.
Пітер Флом

1
Насправді кількість балів НЕ насправді максимальна, вибачте, мені не було достатньо кави! Деякі купюри становлять 0. Наприклад, припустимо (для смішно простого прикладу), що у вас є 3 бали: 1,02 2,21 і 5,92. Якщо ви дійсно хочете максимальної кількості бункерів, це явно більше 3. Мабуть, 6: 1-2, 2-3, 3-4, 4-5 і 5-6 (з відповідними відкритими та закритими інтервалами, щоб уникнути подвійного поширювання)
Пітер Флом

1
@whuber: Ці значення - це набір вимірювань відстані контуру об'єкта від його центру, нормалізованого до [0, 1]. У цьому документі застосовується бінінг цих відстаней2J бункери, знаходячи оптимальний Jшляхом мінімізації суми помилки квантування (від бінінгу) плюс pdf гістограми. Наскільки я розумію.
Уейн

Відповіді:


6

Насправді немає жодної жорсткої верхньої межі, але, з іншого боку, у більшості ситуацій, коли ви отримуєте всі унікальні спостереження у власній кошику, тонкіші кошики служать лише для точного визначення їх позицій, не передаючи набагато більше. наприклад порівняйте такі:

гістограма з 30 бункерами
гістограма зі 100 бункерами

За винятком деяких особливо специфічних обставин, у другому сюжеті, ймовірно, не буде жодної практичної користі, і в першому не стільки. Якщо ваші дані безперервні, це, ймовірно, перевищує корисну кількість бункерів.

Тож у більшості ситуацій це здається як мінімум практичною верхньою межею - кожне унікальне спостереження у власному відрізку.

(Якщо є перевага в більшій кількості контейнерів , ніж один на кожне унікальне спостереження, ви , ймовірно , слід робити rugplot або jittered stripchart , щоб отримати такого роду інформацію) - що - щось на зразок того, що робиться на полях цих гістограм:

гістограмовий килим з тремтінням
гістограма зі стрип-схемою

(Ці гістограми взяті з цієї відповіді , наприкінці кінця)


5

Існує хороший випадок, коли є велика кількість бункерів, наприклад, бункери для кожного можливого значення, коли є підозра на те, що деталізація гістограми не буде шумом, а цікавою або важливою тонкою структурою.

Це не пов'язане безпосередньо з точною мотивацією цього питання, бажаючи автоматизованого правила для деякої оптимальної кількості бункерів, але це стосується питання в цілому.

Перейдемо одразу до прикладів. У демографічному контексті поширене округлення повідомлених віків, особливо, але не тільки в країнах з обмеженою грамотністю. Що може статися, це те, що багато людей не знають їх точну дату народження, або існують соціальні чи особисті причини або заниження, або перебільшення віку. Військова історія сповнена прикладів людей, які розповідають брехню про свій вік або уникати або шукати службу у збройних силах. Дійсно, багато читачів будуть знати когось, хто дуже прихильний або не дуже правдивий щодо свого віку, навіть якщо вони не брешуть про це переписом. Чистий результат варіюється, але як уже випливало з цього, зазвичай це округлення, наприклад, вік, що закінчуються в 0 і 5, набагато частіше, ніж вік на рік менше або більше.

Подібне явище переваги цифр є звичайним навіть для зовсім інших проблем. У деяких старомодних методах вимірювання останню цифру повідомленого вимірювання слід оцінювати оком шляхом інтерполяції між градуйованими позначками. Це був довгий стандарт у метеорології з ртутними термометрами. Було встановлено, що деякі цифри, що повідомляються, зустрічаються частіше, ніж інші, і, що окремо багато з нас мають підписи, особиста модель переваги деяких цифр, а не інших. Звичайний довідковий розподіл тут є рівномірним, тобто, поки діапазон можливих вимірювань у багато разів більший, ніж "одиниця" вимірювання, очікується, що кінцеві цифри відбуватимуться з однаковою частотою. Тож якщо зафіксована температура відтінку може охопити діапазон (скажімо) 50C десять останніх цифр, дроби від градуса .0, .1, , .8, .9 має відбуватися з імовірністю 0,1. Якість цього наближення має бути хорошою навіть для більш обмеженого діапазону.

Між іншим, перегляд останніх цифр повідомлених даних - це простий і хороший метод перевірки сфабрикованих даних, який набагато простіше зрозуміти та менш проблематичний, ніж модний огляд перших цифр на даний момент із зверненням до Закону Бенфорда.

Підсумок гістограм повинен бути зрозумілим. Презентація, що нагадує шип, може слугувати для показу, або загалом, для перевірки такої тонкої структури. Природно, якщо нічого цікавого не помітно, графік може не принести користі.

Один із прикладів показує, що підрахунок віку за переписом у Гані за 1960 рік. Див. Http://www.stata.com/manuals13/rspikeplot.pdf

Був хороший огляд розподілів кінцевих цифр у

Прайс, DA 1981. Розподіл кінцевих цифр у даних. Статистик 30: 31-60.

Примітка щодо термінології: деякі люди пишуть про унікальні значення змінної, коли їм краще говорити про окремі значення змінної. Словники та посібники з використання все ще радять, що "унікальні" засоби трапляються лише один раз. Таким чином, різний вік населення може бути роком 0, 1, 2 та ін., Але переважна більшість цих віків не буде характерною для однієї людини.


4

Не існує жорсткого максимуму для кількості бункерів в гістограмі. Якщо нанесена змінна є безперервною, то можна зробити аргумент для нескінченної кількості категорій (і гістограма, в основному, стає графіком килимка).

Кількість балів у наборі даних не є відповідною верхньою межею. Розглянемо набір даних, що містить два значення: 1 і 1000. Наявність двох бункерів не було б доречним.

Два практичні методи визначення верхньої межі: а) Визначення основного округлення даних. Наприклад, якщо дані є цілими числами, то має сенс мати біни цільної ширини. b) Перегляд максимальної видимої роздільної здатності (наприклад, кількість пікселів у горизонтальному вимірі, які можна використовувати для побудови графіку).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.