Опублікувавши це тут для всіх, хто в майбутньому стикається з моїм запитанням - оригінальний документ, що описує алгоритм фактора локальних факторів, "LOF: Ідентифікація локальних вихованок на основі щільності" (Breunig et al), рекомендує метод вибору k-значення . Як нагадування, алгоритм LOF порівнює щільність кожної точки з щільністю її -closest сусідів. Автори статті рекомендують вибрати мінімум і максимальний , а для кожної точки взяти максимальне значення LOF над кожним у цьому діапазоні. Вони пропонують кілька рекомендацій щодо вибору меж.kkkk
Для мінімального значення значення LOF коливаються в точкових точках рівномірним розподілом для , причому точки в рівномірному розподілі іноді відображаються як видатки, тому вони рекомендують принаймні . По-друге, мінімальне значення значення служить мінімальним розміром для того, щоб вважати його "кластером", так що точки можуть бути переживаючими відносно цього кластера. Якщо , і у вас є група з балів і точка , кожна точка групи буде включати у найближчих сусідів, а буде включати ці точки, приводячи їх до дуже схожих LOF. Тож якщо ви хочете розглянути точку біля групиk<10min(k)=10kk=1512pppNточки як викид, а не частина цієї групи, ваше до значення має бути по крайней мере .N
Для максимального значення застосовується аналогічний критерій, оскільки він повинен бути максимальною кількістю об'єктів, які ви хочете вважати переживаючими, якщо вони згруповані разом. Група з об'єктів, виділених з основного набору, може бути кластером, або потоками; для вони будуть першими; для вони будуть другими.NNk<Nk>N
Сподіваємось, це допомагає всім, хто має подібну проблему. Повний документ знаходиться тут , і обговорення максимальних / min k-значень починається на сторінці 7 і проходить через сторінку 9. (Вони позначають -значення як MinPts .)k