Вибір k-значення для аналізу виявлення локального фактора (LOF)


9

У мене є набір тривимірних даних, і я намагаюся використовувати аналіз локального фактора Outlier, щоб визначити найбільш унікальні або дивні значення. Як можна вирішити k-значення, яке потрібно використовувати в аналізі LOF? Я розумію, що визначає значення k, і тому я не здивований, що я бачу дещо інші результати за допомогою різних k, але я не впевнений, чи є характеристики мого набору даних, які повинні підштовхувати мене до одного значення над іншими . Дякую!

Відповіді:


11

Опублікувавши це тут для всіх, хто в майбутньому стикається з моїм запитанням - оригінальний документ, що описує алгоритм фактора локальних факторів, "LOF: Ідентифікація локальних вихованок на основі щільності" (Breunig et al), рекомендує метод вибору k-значення . Як нагадування, алгоритм LOF порівнює щільність кожної точки з щільністю її -closest сусідів. Автори статті рекомендують вибрати мінімум і максимальний , а для кожної точки взяти максимальне значення LOF над кожним у цьому діапазоні. Вони пропонують кілька рекомендацій щодо вибору меж.kkkk

Для мінімального значення значення LOF коливаються в точкових точках рівномірним розподілом для , причому точки в рівномірному розподілі іноді відображаються як видатки, тому вони рекомендують принаймні . По-друге, мінімальне значення значення служить мінімальним розміром для того, щоб вважати його "кластером", так що точки можуть бути переживаючими відносно цього кластера. Якщо , і у вас є група з балів і точка , кожна точка групи буде включати у найближчих сусідів, а буде включати ці точки, приводячи їх до дуже схожих LOF. Тож якщо ви хочете розглянути точку біля групиk<10min(k)=10kk=1512pppNточки як викид, а не частина цієї групи, ваше до значення має бути по крайней мере .N

Для максимального значення застосовується аналогічний критерій, оскільки він повинен бути максимальною кількістю об'єктів, які ви хочете вважати переживаючими, якщо вони згруповані разом. Група з об'єктів, виділених з основного набору, може бути кластером, або потоками; для вони будуть першими; для вони будуть другими.NNk<Nk>N

Сподіваємось, це допомагає всім, хто має подібну проблему. Повний документ знаходиться тут , і обговорення максимальних / min k-значень починається на сторінці 7 і проходить через сторінку 9. (Вони позначають -значення як MinPts .)k


Просто хочу зрозуміти одне. Скажімо, для будь-якого набору даних я вибираю k = 20 і генерую LOF для кожної точки, а потім показую всі точки у порядку зменшення його LOF. Тепер, коли я аналізую дані, я можу вибрати діапазон, до якого я вважаю, що дані є більш чужими (за знаннями домену). Як ви вважаєте, це допомагає ?? Мені просто мені, як зараз, мені не потрібно турбуватися про значення k, і я використовую свої знання про домен, щоб проаналізувати випускників за рейтингом LOF. Дякую,
Swapnil Bhure
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.