Оцінка щільності ядра, що включає невизначеності


12

Під час візуалізації одновимірних даних звичайно використовувати техніку оцінки щільності ядра для врахування неправильно вибраних ширини відрізка.

Коли мій одномірний набір даних має невизначеність вимірювань, чи існує стандартний спосіб включення цієї інформації?

Наприклад (і вибачте мене, якщо моє розуміння не є наївним) KDE поєднує профіль Гаусса з дельта-функціями спостережень. Це ядро ​​Гаусса розділяється між кожним місцеположенням, але параметр Гаусса може бути змінений, щоб відповідати невизначеності вимірювань. Чи існує стандартний спосіб цього? Я сподіваюся відобразити невизначені значення з широкими ядрами.σ

Я реалізував це просто в Python, але не знаю стандартного методу чи функції для його виконання. Чи є проблеми в цій техніці? Я зауважу, що це дає деякі дивно виглядаючі графіки! Наприклад

Порівняння KDE

У цьому випадку низькі значення мають більшу невизначеність, тому вони, як правило, забезпечують широкі плоскі ядра, тоді як KDE перевищує ваги низьких (і невизначених) значень.


Ви кажете, що червоні криві - це гаусси змінної ширини, а зелена - їх сума? (Це не виглядає правдоподібно з цих графіків.)
whuber

чи знаєте ви, що похибка вимірювання для кожного спостереження?
Аксакал

@whuber червоні криві є гауссами змінної ширини, а синя крива - їх сума. Зелена крива - це KDE з постійною шириною, вибачте за плутанину
Саймон Уокер

@Aksakal так, кожне вимірювання має різну невизначеність
Саймон Уокер

Побічне питання, але це не визначення оцінки щільності ядра, яке ви використовуєте в ядрах Гаусса. Ви можете використовувати будь-яке ядро, яке вам подобається, інтегруючи в 1, хоча деякі ядра є більш розумними або кориснішими, ніж інші ....
Nick Cox

Відповіді:


6

Має сенс змінювати ширину, але не обов'язково відповідати ширині ядра до невизначеності.

Розгляньте мету пропускної здатності, коли маєте справу зі випадковими змінними, для яких спостереження по суті не мають невизначеності (тобто де ви можете спостерігати їх досить близько до точно) - навіть так, kde не буде використовувати нульову пропускну здатність, оскільки пропускна здатність стосується мінливість розподілу, а не невизначеність у спостереженні (тобто, коливання між спостереженням, а не невизначеність "спостереження").

Те, що у вас є, є по суті додатковим джерелом варіацій (у випадку "відсутність спостереження-невизначеності"), що відрізняється для кожного спостереження.

Отже, в якості першого кроку я б сказав "яка найменша пропускна здатність я використовувала б, якщо дані мали 0 невизначеність?" а потім зробіть нову пропускну здатність, яка є квадратним коренем суми квадратів цієї пропускної здатності та ви використали б для невизначеності спостереження.σi

Альтернативним способом розглянути проблему було б ставитись до кожного спостереження як до невеликого ядра (як ви це робили, яке буде представляти, де могло б бути спостереження), але включати звичайне (kde-) ядро ​​(зазвичай фіксованої ширини, але не повинно бути) з ядром невизначеності спостереження, а потім зробіть комбіновану оцінку щільності. (Я вважаю, що це насправді такий самий результат, як і те, що я запропонував вище.)


2

Я застосував би оцінювач щільності ядра змінної пропускної здатності, наприклад, місцеві селектори пропускної здатності для паперу для оцінки деконволюції ядра намагаються створити адаптивне вікно KDE, коли відомий розподіл помилок вимірювання. Ви заявили, що знаєте відхилення від помилок, тому такий підхід має бути застосований у вашому випадку. Ось ще одна стаття про аналогічний підхід із забрудненим зразком: ВИБІР BOOTSTRAP ВІДМОВИ В ОЦІНУВАННІ ЩІЛЬНОСТІ КЕРНЕЛУ З КОНТАМІНОВАНОГО ЗРАЗУ


Ваше перше посилання переносить мене на ms.unimelb.edu.au , це не папір. Я думаю, ти маєш на увазі link.springer.com/article/10.1007/s11222-011-9247-y
Аді Ро

Ці рішення виглядають чудово! чи знаєте ви про код, що реалізує їх?
Аді Ро

@AdiRo, я виправив пошкоджене посилання. У мене немає коду
Аксакал,

0

Ви можете проконсультуватися у розділі 6 «Оцінка багатоваріантної щільності: теорія, практика та візуалізація» Девіда В. Скотта, 1992, Вілі.

год=(4/3)1/5σн1/5(6.17)
σнгодσ

f^(х)=1нгодi=1нК(х-хiгод)
К()

0

Насправді, я думаю, запропонований вами метод називається графіком щільності ймовірності (PDP), який широко використовується в гео-науці, див. Тут статтю: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Однак є недоліки, про які говорилося в статті вище. Наприклад, якщо виміряні помилки невеликі, в PDF-файлі, який ви отримаєте, в кінцевому підсумку з’являться шипи. Але також можна згладити PDP так само, як і спосіб KDE, як і те, що згадував @ Glen_b ♦

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.