Я засновник IPinfo , тому я точно можу запропонувати деякі деталі навколо цього! Існує не один єдиний метод, який ми використовуємо, або єдине джерело даних для створення власної бази геолокацій (або будь-який з інших наших наборів даних, наприклад, IP для компанії або IP для перевізника). Це поєднання безлічі різних наборів даних, технік обробки даних та уроків, які ми робимо це вже кілька років!
Деякі джерела даних та методи, які не часто згадуються, включають:
Прямі канали провайдерів. Наш сервіс обробляє близько 500 мільйонів запитів API на день, і він використовується на багатьох популярних веб-сайтах високого профілю. Тому Інтернет-провайдери заохочуються надавати нам точні сучасні дані про геолокацію, щоб їхні клієнти отримували чудовий досвід в Інтернеті. Ми постійно працюємо з все більшою кількістю провайдерів.
Дані про місцезнаходження GPS. Можна збирати точну інформацію про місцезнаходження за допомогою GPS на мобільних пристроях. Ви можете з’єднати це з IP-адресою та деякими мережевими топологічними висновками для визначення місця розташування для IP-діапазонів, даючи лише кілька вимірювань.
Користувач подав виправлення. Коли ми неправильно визначимо місцеположення (або воно не було оновлено після зміни), ми часто швидко отримуємо зворотній зв’язок від користувачів, і можемо вручну виправити місцеположення або налаштувати наш алгоритм, щоб переконатися, що він правильно розташований під час наступного запуску програми наш трубопровід обробки даних.
Для нашого набору даних IP до компанії ми фактично скреблимо кожне ім’я кожного домену щомісяця і перехресно посилаємось на дані, які ми отримуємо там, з інформацією про право власності на IP-адресу, іншими записами тощо. Потім ми також використовуємо дані для скреблінгу домену, щоб показати, які домени розміщуються на яких IP-адресах, а також у нашому класифікаторі типу IP, а також у багатьох інших джерелах даних, щоб визначити ймовірність використання IP-адреси в основному як приватного провайдера, бізнес або хостинг-провайдер. Ми також аналізуємо структуру посилань цих сторінок і показати деякі з цих даних на host.io .