Я працюю над деяким програмним забезпеченням, яке повинно визначати місця в реальному світі (камери швидкості руху) з кількох звітів на основі GPS . Користувач буде керувати автомобілем, коли повідомляє про місцеположення, тому звіти є дуже неточними. Щоб вирішити цю проблему, я повинен кластерувати звіти про одне і те саме місце розташування та обчислювати середнє значення.
Моє запитання - як кластерувати ці звіти . Я читав про алгоритми максимального очікування та кластеризацію k-засобів , але, як я зрозумів, мені потрібно буде заздалегідь визначити кількість реальних локацій.
Чи існують інші алгоритми, яким не потрібна точна кількість реальних локацій, але натомість використовують деякі крайові умови (мінімальна відстань)?
Звіт містить довготу , широту та точність (у метрах). Немає імені чи нічого іншого, яке могло б використовуватися для ідентифікації дублікатів.
Ще однією перешкодою може стати те, що загальним є те, що існує лише один звіт про реальне місце розташування світу. Це ускладнює відрізнення людей, що переживають люди, від хороших даних.