Чи може робот Googlebot сканувати або витягувати URL-адреси / URI-адреси з сайтів індексів / фантастичних індексів Apache?
Так.
Я здійснив пошук на Google, і він навіть не згадує про такі ситуації (сканування веб-сайтів з індексом / фантастичним розміщенням індексів Apache).
Ймовірно, тому що тут дійсно немає нічого примітного. =)
Неможливість розібрати деякі або всі сторінки зазвичай виникає лише з JavaScript, оскільки, за винятком Google, більшість веб-сканерів не виконують код JavaScript. Apache повертає індекси (навіть фантазії) як прості HTML-сторінки (без JavaScript).
Ймовірно, буде розмова про Пошукова оптимізація з сайтами лише для індексів, але це, ймовірно, про це. Тим не менш, гуглить " Firefox ftp "повертається https://ftp.mozilla.org/pub/firefox/releases/ як перший результат.
Я знаю, що можу відправити павука на сайт і знайти всі види речей, які не пов'язані між собою ...
Все, що зазвичай звертається до павука (або що-у вас), пов'язане як URL / URI десь у коді для сторінок, які проаналізовані (навіть якщо це не видно "звичайним" відвідувачам).
Єдиним винятком з цього може бути:
Посилання, які вимагають доступу до JavaScript (наприклад, як у лінивих завантаженнях), які більш просунуті боти іноді можуть робити так чи інакше, принаймні у поєднанні з безголовими браузерами.
Посилання, засновані на грубому висновку URL (найчастіше практикується шкідливими скриптами / інструментами тощо).
Посилання, які помилково створюються деякими помилками конфігурації сервера або уразливістю системи, які призводять до файлів за межами кореневої мережі.
... отже Googlebot може зробити те ж саме з сайтами, подібними до моїх?
Що стосується сторінок індексу / фантазії Apache, Googlebot може індексувати все, до чого може мати доступ звичайний (або навіть підкований) відвідувач.