Де корисна оцінка щільності?


14

Переглянувши трохи збиту математику, я думаю, що у мене є незначна інтуїція оцінки щільності ядра. Але я також усвідомлюю, що оцінка багатоваріантної щільності для більш ніж трьох змінних може бути не дуже хорошою ідеєю з точки зору статистичних властивостей її оцінювачів.

Отже, у яких ситуаціях слід оцінити, скажімо, біваріантну щільність за допомогою непараметричних методів? Чи варто достатньо почати турбуватися про оцінку його для більш ніж двох змінних?

Якщо ви можете вказати на деякі корисні посилання щодо застосування оцінки багатоваріантної щільності, це було б чудово.

Відповіді:


16

Один типовий випадок застосування оцінки щільності - це виявлення новинок, так само виявлення зовнішнього вигляду, де ідея полягає в тому, що ви маєте лише (або в основному) дані одного типу, але вас цікавлять дуже рідкісні, якісні чіткі дані, які суттєво відхиляються від ті поширені випадки.

Прикладами є виявлення шахрайства, виявлення несправностей у системах тощо. Це ситуації, коли дуже важко і / або дорого збирати дані того типу, який вас цікавить. Ці рідкісні випадки, тобто випадки з низькою ймовірністю виникнення.

У більшості випадків ви зацікавлені не в тому, щоб точно оцінити точний розподіл, а на відносних шансах (наскільки ймовірний, що дана вибірка є фактичною групою, а не такою).

На тему є десятки навчальних посібників та рецензій. Це один може бути хорошим , щоб почати с.

EDIT: деяким людям здається дивним, використовуючи оцінку щільності для виявлення зовнішньої форми. Давайте спочатку домовимось про одне: коли хтось підходить суміш моделі до своїх даних, він фактично проводить оцінку щільності. Модель суміші представляє розподіл ймовірності.

kNN та GMM насправді пов'язані: вони є двома методами оцінки такої щільності ймовірності. Це основна ідея багатьох підходів у виявленні новинок. Наприклад, це один на основі kNNs, цей інший основі Парзена вікна (які підкреслюють цю саму ідею на початку статті), і багатьох інших .

Мені здається (але це лише моє особисте сприйняття) більшість, якщо не всі працюють над цією ідеєю. Як ще ви б висловили ідею аномальної / рідкісної події?


Викладене вами нота (розділ 6, "Підхід на основі щільності") окреслює деякі дуже езотеричні (далеко не середні потоки та тиху розроблену літературу з цього приводу) підходи до виявлення зовнішньої структури. Звичайно, повинні існувати більш поширені програми.
user603

2
Вибачте, я не розумію вашого коментаря. Два дуже основних приклади - kNN та GMM. Ці два методи забезпечують оцінку щільності ймовірності і можуть бути використані для таких випадків.
jpmuc

Спасибі. що таке ГММ? Я не думаю, що kNN - це підхід середнього потоку до виявлення зовнішньої структури. Чи можете ви звернутися до недавнього підручника про надійну статистику, де він використовується в цьому контексті? (Я подивився на документи в наборі слайдів, які ви вказували на те, що стосуються виявлення
зовнішньої форми,

GMM = гауссова модель суміші. У слайдах вони посилаються на бали на основі kNN. Я особисто використовував SVM для виявлення щорічно. На жаль, я не можу рекомендувати вам конкретний підручник. Можливо, цих приміток ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) достатньо.
jpmuc

1
Я погоджуюся з @ user603. Оцінка щільності на перший погляд є дуже дивним і непрямим способом спроби знайти інших людей. Ваша відповідь буде підсилена шляхом підсумовування того, як це застосовується на практиці - і чому ви вважаєте, що це працює добре.
Нік Кокс

4

(xi)

fh(x)xiexp((xix)TΣ1(xix)),
Σ1xi

4

Зазвичай KDE рекламується як альтернатива гістограмам. Основна перевага KDE над гістограмами в цьому контексті полягає у зменшенні впливу довільно обраних параметрів на візуальний вихід процедури. Зокрема (як показано у посиланні вище), KDE не потрібно, щоб користувач вказував початкові та кінцеві точки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.