Гістограма з рівномірним та неоднорідним бункерами


10

Це питання описує основну різницю між рівномірною та неоднорідною гістограмою. І в цьому питанні обговорюється велике правило для вибору кількості бункерів рівномірної гістограми, яка оптимізує (в деякому сенсі) ступінь, до якого гістограма являє собою розподіл, з якого були взяті зразки даних.

Я не можу знайти одне і те ж «обговорення оптимальності» щодо рівномірних проти неоднорідних гістограм. У мене кластерне непараметричне розподіл із далекими людьми, так що неоднорідна гістограма інтуїтивно має більше сенсу. Але я хотів би побачити більш точний аналіз наступних двох питань:

  1. Коли гістограма однорідного біна краще, ніж нерівномірний?
  2. Яка хороша кількість бункерів для неоднорідної гістограми?

Для нерівномірної гістограми я вважаю найпростішим випадком, коли ми беремо вибірок з невідомого розподілу, упорядковуємо отримані значень і розділяємо їх на бункери таким чином, що кожен кошик має цих вибірки (якщо припустити, що для великого цілого числа ). Діапазони формуються шляхом взяття середньої точки між значень у bin i та \ min значень у bin i + 1 . Ось і ось посилання, що описують цей тип нерівномірних гістограм.nnkknnckcmaximini+1


Інформації для відповіді недостатньо (2). Які умови щодо нерівномірності? Чи можете ви вибрати будь-які баки, які вам подобаються, чи є якесь обмеження? Що ви хочете оптимізувати? наприклад, ви хочете мінімальну середню помилку інтегрованого квадрата між і ? Або щось інше? ff^
Glen_b -Встановити Моніку

@Glen_b Я дещо детальніше описую тип гістограми, яку я розглядаю у випадку нерівномірного біна.
Алан Тьюрінг

Перевірте свої зміни. Ви мали на увазі "n = см", а не "cn"? Також є пізніша друкарська помилка.
Glen_b -Встановити Моніку

Ви намагаєтеся передати що - щось на зразок цього ?
Glen_b -Встановити Моніку

Також дивіться це обговорення компромісу між цією звичайною гістограмою
Glen_b -Встановити Моніку

Відповіді:


7

Коли гістограма однорідного біна краще, ніж нерівномірний?

Це вимагає певної ідентифікації того, що ми б прагнули оптимізувати; багато людей намагаються оптимізувати середню інтегральну середньоквадратичну помилку, але в багатьох випадках я вважаю, що дещо не вистачає сенсу робити гістограму; це часто (на мій погляд) «загладжування»; для дослідницького інструменту, як гістограма, я можу переносити набагато більше шорсткості, оскільки сама шорсткість дає мені відчуття того, наскільки я повинен "згладити" оком; Я прагну принаймні подвоїти звичайну кількість бункерів від таких правил, іноді набагато більше. Я схильний погодитися з цим Ендрю Гелманом ; Дійсно, якщо мій інтерес справді отримував хороший AIMSE, я, мабуть, не повинен розглянути питання про гістограму.

Тож нам потрібен критерій.

Почну з обговорення деяких варіантів гістограм нерівної площі:

Існують деякі підходи, які роблять більш згладжуючими (меншими, ширшими відрізками) в районах нижчої щільності та мають більш вузькі відрізки, де щільність вища - наприклад, гістограми з "рівною площею" або "рівне число". Ваше відредаговане запитання, здається, враховує рівну можливість підрахунку.

histogramФункція R в latticeупаковці може виробляти приблизно рівну площу барів:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

порівняння однакової ширини та рівних площ

Цей занурення праворуч від крайнього лівого відра ще чіткіше, якщо взяти четверте коріння; з контейнерами однакової ширини ви його не можете побачити, якщо ви не використовуєте від 15 до 20 разів більше бункерів, і тоді правий хвіст виглядає жахливо.

Там в рівній кількості гістограми тут , з R-кодом, який використовує вибіркові-квантилі знайти розриви.

Наприклад, за тими ж даними, що і вище, ось 6 бункерів з (сподіваємось) 8 спостереженнями кожен:

рівноцінна гістограма

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Це запитання з резюме вказує на документ Денбі та Маллоуса, версію якого можна завантажити тут, де описано компроміс між бункерами однакової ширини та бункерами рівних площ.

Він також стосується питань, які у вас були до певної міри.

Ви можете, можливо, розглянути проблему як одне визначення перерв у кусково-постійному процесі Пуассона. Це призвело б до такої роботи . Існує також пов'язана можливість перегляду алгоритмів типу кластеризації / класифікації на (скажімо) рахунках Пуассона, деякі з яких алгоритми дадуть ряд бункерів. Кластеризація була використана на двовимірних гістограмах ( зображення , фактично) для ідентифікації областей, які є відносно однорідними.

-

Якби у нас була гістограма з рівним підрахунком та якийсь критерій для оптимізації, ми могли б спробувати діапазон підрахунків за відро і оцінити критерій певним чином. Згаданий тут документ Wand [ папір або робочий документ pdf ] та деякі його посилання (наприклад, на документи Sheather et al.) Окреслюють оцінку «підключення» ширини відрізків на основі ідей згладжування ядра для оптимізації AIMSE; В цілому кажучи, такий підхід повинен бути адаптованим до цієї ситуації, хоча я не пам'ятаю, як це було зроблено.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.