Мені потрібно переконатися, що моя карта XML містить менше ніж сміття (розірвані ланки). Список URL-адрес є сотнями тисяч, і навіть якщо це можливо, протестувати їх усі 1 на 1, я б краще, з багатьох причин:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Тому я думаю, що вибір випадкового підмножини буде достатнім, проблема полягає в тому, що я не знаю ймовірностей.
Чи є проста функція, яку я можу використовувати?
Якщо це допомагає, ми можемо припустити наявність апріорної інформації про ймовірність того, що посилання буде розірвано через прогони. Скажімо, що через пробіжки є a будь-яке посилання буде розірвано.