Адаптивні оцінки щільності ядра?

Чи може хто-небудь повідомити про свій досвід роботи з адаптивним оцінювачем щільності ядра?
(Є багато синонімів: адаптивний | змінної | змінної ширини, KDE | гістограма | інтерполятор ...)

Змінна оцінка щільності ядра говорить, що "ми змінюємо ширину ядра в різних областях вибіркового простору. Існують два методи ..." насправді більше: сусіди в деякому радіусі, найближчі сусіди КНН (K зазвичай фіксовано), дерева Kd, багаторешітка ...
Звичайно, жоден метод не може зробити все, але пристосувальні методи виглядають привабливо.
Дивіться, наприклад, приємну картину адаптивного 2d-сітки в методі Кінцевих елементів .

Я хотів би почути, що працювало / що не працювало для реальних даних, особливо> = 100k розсіяних точок даних у 2d або 3d.

Додано 2 листопада: ось графік "незграбної" щільності (кусково x ^ 2 * y ^ 2), оцінка найближчого сусіда та Gaussian KDE з коефіцієнтом Скотта. Хоча один (1) приклад нічого не підтверджує, він показує, що NN може добре розмістити гострі пагорби (і, використовуючи дерева KD, швидко в 2d, 3d ...) alt текст

kde k-nearest-neighbour

— деніс
джерело

Чи можете ви дати alittle більше контексту щодо того, що ви маєте на увазі під "розумінням, що працює", або про конкретні цілі вашого проекту. Я використовував їх для візуалізації процесів просторових точок, але я сумніваюся, що це ви мали на увазі, задаючи це питання.

— Енді Ш

Відповіді:

Стаття * DG Terrell; Д. В. Скотт (1992). "Оцінка щільності змінної ядра". Аннали статистики 20: 1236–1265. *, Цитовані в кінці статті Вікіпедії, ви самі цитуєте, чітко зазначається, що, якщо простір спостережень не є дуже рідким, метод змінної ядра не рекомендується на основі глобальної середньої кореневої помилки (обидві локальні і глобальна) для розподілених випадкових змінних Гаусса: (через теоретичні аргументи) вони наводять цифри ( - розмір вибірки) та (за результатами завантаження) ( $n\leq 450$ $n$ $p\geq 4$ $p$ - це кількість вимірів) як налаштування, в якому метод змінної ядра стає конкурентоспроможним з фіксованою шириною (судячи з вашого запитання, ви не в цих налаштуваннях).

Інтуїція, що стоїть за цими результатами, полягає в тому, що якщо ви не в дуже рідких налаштуваннях, то локальна щільність просто не відрізняється достатньою мірою для збільшення коефіцієнта зміщення, щоб перевершити втрату ефективності (і, отже, AMISE ядра змінної ширини збільшується відносно AMISE фіксованої ширини). Крім того, враховуючи великий розмір вибірки (і невеликі розміри), ядро з фіксованою шириною вже буде дуже локальним, зменшуючи будь-які потенційні вигоди в частині зміщення.

— user603
джерело

Дякую Кваку. "... для розподілених випадкових змінних Гаусса"; Ви б знали про новіші роботи для "незграбних" дистрибуцій?

— деніс

@Denis:> 'незграбний' =? Сконцентрований =? З більш вузькими хвостами, ніж гауссовий?

— user603

Я не фахівець, але як «набір даних clumpiness» в роботі Ланг і ін «Insights на швидко Kernel оцінювання щільності алгоритмів», 2004, 8р.

— денис

@Denis:> Я б сказав, що це робить проблему найгіршою (тобто ядро NN має працювати краще на менш незграбних даних). У мене є інтуїтивне пояснення, але воно тут не підходить, плюс ви можете задати це питання на головній дошці як окреме запитання (посилання на це), щоб отримати додаткові думки.

— user603

Папір, документ

Максим Вікторович Шаповалов, Роланд Л. Данбрак-молодший, Бібліотека згладженої залежної від хребта ротамеру для білків, отриманих з оцінок щільності та регресії адаптивного ядра, Структура, Том 19, Випуск 6, 8 червня 2011 р., Сторінки 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.

використовує адаптивне оцінювання щільності ядра для того, щоб зробити їхню щільність оцінкою в регіонах, де дані рідкісні.

— момерара
джерело

-1

Loess / lowess - це в основному метод KDE, при цьому ширина ядра встановлюється підходом найближчого сусіда. Я виявив, що вона працює досить добре, звичайно, набагато краще, ніж будь-яка модель фіксованої ширини, коли щільність точок даних помітно змінюється.

Одне, що слід пам’ятати про KDE та багатовимірні дані, - це прокляття розмірності. За інших рівних випадків у заданому радіусі набагато менше точок, коли р ~ 10, ніж при р ~ 2. Це може не бути проблемою для вас, якщо у вас є лише 3d дані, але це потрібно пам’ятати.

— Hong Ooi
джерело

Loess - метод змінної ядра REGRESSION. Питання, що задається щодо оцінки змінної щільності ядра.

— Роб Хайндман

На жаль, ви праві. Неправильно запитайте питання.

— Hong Ooi

@Rob, виправдайте мої наївні запитання: якщо зміна ширини ядра (іноді) корисна для локальної регресії / згладжування ядра, чому це погано для оцінки щільності? Чи не оцінка щільності є випадком оцінки f () для f () == щільності ()?

— деніс

@Hong Ooi, скільки балів у тому, що Ndim ти використав? Дякую

— denis

@Denis. Чудове запитання. Чи можете ви додати його як належне запитання на сайті, і ми побачимо, які відповіді люди можуть придумати.

— Роб Хайндман