Як Google встиг просканувати мої 403 сторінки?

У мене в папці в школі було кілька приватних файлів. Ви можете побачити, що файли існували, перейшовши на сторінку myschool.edu/myusername/myfolder, але намагаючись отримати доступ до самих файлів через myschool.edu/myusername/myfolder/myfile.html, повертає помилку 403.

І все ж Google якось зумів схопити вміст цих приватних файлів і зберегти їх у своєму кеші! Як це можливо? [З тих пір я видалив ці файли, тому мені просто цікаво, як Google це встиг зробити.]

web-crawlers security googlebot

— grautur
джерело

Це належить веб

— майстрам

Найбільш вірогідною причиною є те, що сторінки не повернуть заголовок 403.

Ви можете перевірити, використовуючи Панель інструментів веб-розробників у Firefox або Chrome. Інструмент розташований у розділі "Інформація" -> "Перегляд заголовків відповідей".

Також спосіб створення моїх сторінок помилок:

Я створюю сторінку помилкової помилки. Скажімо, 403.php .
Я створюю фактичну сторінку помилок. Наприклад, помилка403.php .
На сторінці помилки манекена я ставлю такий код: <?php header("Location: /error403.php",TRUE,301); ?>
У своєму .htaccess я помістив таке:

Options -Indexes

ErrorDocument 403 /403.php

Це додає всі переадресації належним чином і робить мене впевненим, що я отримую трохи соку зі своїх сторінок помилок.

Насправді це можна розширити надзвичайно класно, якщо на вашому веб-сайті є пошукова система, яка використовує GET-запити.

— Вергілій Пенков
джерело