Якщо змінна ширина ядра часто хороша для регресії ядра, чому вони, як правило, не підходять для оцінки щільності ядра?

Це питання спонукається до обговорення в інших місцях .

Змінні ядра часто використовуються при локальній регресії. Наприклад, льос широко використовується і добре працює як регресія, і ґрунтується на ядрі змінної ширини, яке адаптується до розрідженості даних.

З іншого боку, звичайно вважається, що змінні ядра призводять до поганих оцінок при оцінці щільності ядра (див. Terrell і Scott, 1992 ).

Чи є інтуїтивно зрозуміла причина, чому вони будуть добре працювати для регресії, але не для оцінки щільності?

— Роб Хайндман
джерело

Ви писали: "З іншого боку, мінливі ядра, як правило, вважають, що вони призводять до поганих оцінок при оцінці щільності ядра", яка частина статті, яку ви згадуєте, змушує вас це повірити? У мене є багато посилань, які стосуються іншої декреції, див., Наприклад, посилання, згадані в цій статті: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— robin girard

Реферат Террелла і Скотта це добре підсумовує: "Найближчі сусіди оцінювачів у всіх версіях погано працюють в одному і двох вимірах". Вони, здається, знаходять велику перевагу в оцінці багатоваріантної щільності.

— Роб Хайндман

"Найближчий сусід" - не єдина змінна ядро. У документах, про які я згадую, використовується інший інструмент, такий як алгоритм Лепського. Я прочитаю папір AOS, але оскільки показники найближчого сусіда повинні зменшуватись із розмірністю, мені здається дивним, що збільшення розміру дає переваги оціннику "дуже непараметричного" (Якщо визнати постійну пропускну здатність менше непараметричної, ніж варіюється смуга). У такому випадку ситуація, що використовується у випадку оцінки, часто визначає результати ...

— Робін Жирард

@Robin Girard:> * виявило дивно, що збільшення розмірності дає переваги оціннику "дуже непараметричного" (Якщо ми визнаємо, що константна пропускна здатність більше непараметрична, ніж змінюється пропускна здатність) * чи є помилка в цьому реченні? Інакше ви, мабуть, погоджуєтесь з авторами, принаймні на інтуїтивному рівні. Дякуємо за підтвердження / правильність.

— user603

@kwak завдяки цьому помітив! це помилка: я хотів сказати, що постійна пропускна здатність менше NP ... Я не можу змінити коментар :( вибачте за це.

— robin girard

Відповіді:

Тут, схоже, є два різні питання, які я спробую розділити:

1) чим KS, згладжування ядра відрізняється від KDE, оцінки щільності ядра? Ну, скажіть, у мене є оцінювач / плавніший / інтерполятор

est( xi, fi -> gridj, estj )

а також трапляється знати "справжню" щільністьf () в xi. Тоді біг est( x, densityf ) повинен дати оцінку щільностіf (): KDE. Цілком може бути, що KS та KDE оцінюються по-різному - різні критерії гладкості, різні норми - але я не бачу принципової різниці. Що я пропускаю?

2) Як розмірність впливає на оцінку або згладжування, інтуїтивно ? Ось іграшковий приклад, просто щоб допомогти інтуїції. Розглянемо коробку з N = 10000 точок у рівномірній сітці, а вікно, лінію чи квадрат або куб, W = 64 точки в ній:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Тут "співвідношення сторони" - це сторона вікна / поля, а "dist to win" - приблизна оцінка середньої відстані випадкової точки в полі до випадково розміщеного вікна.

Чи має це взагалі сенс? (Зображення чи аплет справді допоможуть: кому?)

Ідея полягає у тому, що вікно фіксованого розміру у вікні фіксованого розміру має дуже різну близькість до решти поля, в 1d 2d 3d 4d. Це для рівномірної сітки; може бути, сильна залежність від виміру переноситься на інші розподіли, а може і ні. У будь-якому випадку це виглядає як сильний загальний ефект, аспект прокляття розмірності.

— деніс
джерело

Оцінка щільності ядра означає інтеграцію через локальне (нечітке) вікно, а згладжування ядра означає усереднення над локальним (нечітким) вікном.

$\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$ .

Оцінка щільності ядра: $\rho(x) \propto \sum K(||x-x_i||)$ .

Як вони однакові?

Розглянемо зразки булевої функції, тобто набір, що містить як "справжні вибірки" (кожен з одиничним значенням), так і "помилкові вибірки" (кожен з нульовим значенням). Якщо припустити, що загальна щільність вибірки є постійною (подібно до сітки), то локальне середнє значення цієї функції однаково пропорційне локальній (часткової) щільності підмножини справжнього значення. (Помилкові зразки дозволяють нам постійно ігнорувати знаменник рівняння згладжування, додаючи при цьому підсумовування нульових доданків, щоб воно спростилося до рівняння оцінки щільності.)

Аналогічно, якби ваші зразки були представлені як розріджені елементи на булевій растрі, ви можете оцінити їх щільність, застосувавши фільтр розмиття до растру.

Чим вони відрізняються?

Інтуїтивно можна очікувати, що вибір алгоритму згладжування залежатиме від того, містять чи ні вибіркові вимірювання значну помилку вимірювання.

На одному крайньому рівні (без шуму) вам просто потрібно інтерполювати між точно відомими значеннями у місцях вибірки. Скажімо, триангуляцією Делоне (з білінеарною кусковою інтерполяцією).

Оцінка щільності нагадує протилежну крайність, вона є повністю шумовою, оскільки зразок ізольовано не супроводжується вимірюванням значення щільності в цій точці. (Отже, просто немає інтерполяції. Ви можете розглянути можливість вимірювання клітинок ділянок Вороного, але згладжування / позначення все ще буде важливим.)

Справа в тому, що незважаючи на подібність, це принципово різні проблеми, тому різні підходи можуть бути оптимальними.

— бенджимін
джерело