Коли гістограма однорідного біна краще, ніж нерівномірний?
Це вимагає певної ідентифікації того, що ми б прагнули оптимізувати; багато людей намагаються оптимізувати середню інтегральну середньоквадратичну помилку, але в багатьох випадках я вважаю, що дещо не вистачає сенсу робити гістограму; це часто (на мій погляд) «загладжування»; для дослідницького інструменту, як гістограма, я можу переносити набагато більше шорсткості, оскільки сама шорсткість дає мені відчуття того, наскільки я повинен "згладити" оком; Я прагну принаймні подвоїти звичайну кількість бункерів від таких правил, іноді набагато більше. Я схильний погодитися з цим Ендрю Гелманом ; Дійсно, якщо мій інтерес справді отримував хороший AIMSE, я, мабуть, не повинен розглянути питання про гістограму.
Тож нам потрібен критерій.
Почну з обговорення деяких варіантів гістограм нерівної площі:
Існують деякі підходи, які роблять більш згладжуючими (меншими, ширшими відрізками) в районах нижчої щільності та мають більш вузькі відрізки, де щільність вища - наприклад, гістограми з "рівною площею" або "рівне число". Ваше відредаговане запитання, здається, враховує рівну можливість підрахунку.
histogram
Функція R в lattice
упаковці може виробляти приблизно рівну площу барів:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Цей занурення праворуч від крайнього лівого відра ще чіткіше, якщо взяти четверте коріння; з контейнерами однакової ширини ви його не можете побачити, якщо ви не використовуєте від 15 до 20 разів більше бункерів, і тоді правий хвіст виглядає жахливо.
Там в рівній кількості гістограми тут , з R-кодом, який використовує вибіркові-квантилі знайти розриви.
Наприклад, за тими ж даними, що і вище, ось 6 бункерів з (сподіваємось) 8 спостереженнями кожен:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Це запитання з резюме вказує на документ Денбі та Маллоуса, версію якого можна завантажити тут, де описано компроміс між бункерами однакової ширини та бункерами рівних площ.
Він також стосується питань, які у вас були до певної міри.
Ви можете, можливо, розглянути проблему як одне визначення перерв у кусково-постійному процесі Пуассона. Це призвело б до такої роботи . Існує також пов'язана можливість перегляду алгоритмів типу кластеризації / класифікації на (скажімо) рахунках Пуассона, деякі з яких алгоритми дадуть ряд бункерів. Кластеризація була використана на двовимірних гістограмах ( зображення , фактично) для ідентифікації областей, які є відносно однорідними.
-
Якби у нас була гістограма з рівним підрахунком та якийсь критерій для оптимізації, ми могли б спробувати діапазон підрахунків за відро і оцінити критерій певним чином. Згаданий тут документ Wand [ папір або робочий документ pdf ] та деякі його посилання (наприклад, на документи Sheather et al.) Окреслюють оцінку «підключення» ширини відрізків на основі ідей згладжування ядра для оптимізації AIMSE; В цілому кажучи, такий підхід повинен бути адаптованим до цієї ситуації, хоча я не пам'ятаю, як це було зроблено.