Існує хороший випадок, коли є велика кількість бункерів, наприклад, бункери для кожного можливого значення, коли є підозра на те, що деталізація гістограми не буде шумом, а цікавою або важливою тонкою структурою.
Це не пов'язане безпосередньо з точною мотивацією цього питання, бажаючи автоматизованого правила для деякої оптимальної кількості бункерів, але це стосується питання в цілому.
Перейдемо одразу до прикладів. У демографічному контексті поширене округлення повідомлених віків, особливо, але не тільки в країнах з обмеженою грамотністю. Що може статися, це те, що багато людей не знають їх точну дату народження, або існують соціальні чи особисті причини або заниження, або перебільшення віку. Військова історія сповнена прикладів людей, які розповідають брехню про свій вік або уникати або шукати службу у збройних силах. Дійсно, багато читачів будуть знати когось, хто дуже прихильний або не дуже правдивий щодо свого віку, навіть якщо вони не брешуть про це переписом. Чистий результат варіюється, але як уже випливало з цього, зазвичай це округлення, наприклад, вік, що закінчуються в 0 і 5, набагато частіше, ніж вік на рік менше або більше.
Подібне явище переваги цифр є звичайним навіть для зовсім інших проблем. У деяких старомодних методах вимірювання останню цифру повідомленого вимірювання слід оцінювати оком шляхом інтерполяції між градуйованими позначками. Це був довгий стандарт у метеорології з ртутними термометрами. Було встановлено, що деякі цифри, що повідомляються, зустрічаються частіше, ніж інші, і, що окремо багато з нас мають підписи, особиста модель переваги деяких цифр, а не інших. Звичайний довідковий розподіл тут є рівномірним, тобто, поки діапазон можливих вимірювань у багато разів більший, ніж "одиниця" вимірювання, очікується, що кінцеві цифри відбуватимуться з однаковою частотою. Тож якщо зафіксована температура відтінку може охопити діапазон (скажімо) 50∘C десять останніх цифр, дроби від градуса .0, .1, ⋯, .8, .9 має відбуватися з імовірністю 0,1. Якість цього наближення має бути хорошою навіть для більш обмеженого діапазону.
Між іншим, перегляд останніх цифр повідомлених даних - це простий і хороший метод перевірки сфабрикованих даних, який набагато простіше зрозуміти та менш проблематичний, ніж модний огляд перших цифр на даний момент із зверненням до Закону Бенфорда.
Підсумок гістограм повинен бути зрозумілим. Презентація, що нагадує шип, може слугувати для показу, або загалом, для перевірки такої тонкої структури. Природно, якщо нічого цікавого не помітно, графік може не принести користі.
Один із прикладів показує, що підрахунок віку за переписом у Гані за 1960 рік. Див. Http://www.stata.com/manuals13/rspikeplot.pdf
Був хороший огляд розподілів кінцевих цифр у
Прайс, DA 1981. Розподіл кінцевих цифр у даних. Статистик 30: 31-60.
Примітка щодо термінології: деякі люди пишуть про унікальні значення змінної, коли їм краще говорити про окремі значення змінної. Словники та посібники з використання все ще радять, що "унікальні" засоби трапляються лише один раз. Таким чином, різний вік населення може бути роком 0, 1, 2 та ін., Але переважна більшість цих віків не буде характерною для однієї людини.