Robots.txt: мені потрібно заборонити сторінку, яка ніде не пов’язана?


12

На моєму веб-сайті є кілька сторінок, за якими я хочу, щоб користувач міг відвідати лише, якщо я даю йому / її URL.

Якщо я забороняю одиничні сторінки robots.txt, вони будуть помітні всім , хто на неї заглядає.

Моє запитання: якщо я не пов'язую їх з будь-якого місця або, принаймні, з індексованої сторінки, чи все-таки якимось чином вони дістануться сканерам?

Відповіді:


11

Ви зовсім не хочете, щоб сторінка відображалася в SERPs ...

Не забороняйте в robots.txt. Натомість додайте метатег noindex (або заголовка HTTP X-Robots-Tag) на свої сторінки.

Як підказує j0k, ваші сторінки можна було якось знайти. Звіти про статистику, списки каталогів тощо ...

Якщо заборонити роботу robots.txt, це запобігає скануванню сторінки, але все ще може бути індексовано і може відображатися як URL-адреса посилання в SERP. Щось на зразок:

Посилання URL-адреси лише в SERP-і Google

Метатег noindex не дозволяє цій сторінці взагалі відображатися в SERPs - але Google повинен мати можливість сканувати сторінку, щоб побачити метатег noindex - тому її не можна заборонити в robots.txt!

Якщо на сторінці є щось, що не повинно бути загальнодоступним, то на сторінках повинно бути поза якоюсь автентифікацією.


Варто пам’ятати, що якщо це дійсно щось конфіденційне, то «приховувати» його URL-адресою - це погана практика незалежно від обраного вами методу. Використання належної аутентифікації дійсно важливо у такому випадку.
Джон Мюллер

1
Також кнопки соціальних медіа (як / Поділитися / + 1 / різні закладки) також отримують вміст і можуть публічно відображати URL-адресу, заголовок та фрагмент, навіть якщо URL-адреса на ній не містить (або заборонена роботами) .txt). Єдиний спосіб запобігти цьому - використовувати автентифікацію.
Джон Мюллер

2

Я думаю, у вас є хороший сканер, який читає robots.txt та дотримується директиви. І інший, який не відповідає директиві.

І як ви плануєте надати цю URL-адресу? По електронній пошті, використовуючи Facebook чи Twitter? Усі ці служби сканують інформацію, яку ви надсилаєте. Електронна пошта для розбору електронної пошти, яку Ви отримуєте, для отримання реклами. Отже, ваша URL-адреса буде якось переповнена.

Деякі користуються панеллю інструментів Google (або будь-якою іншою панеллю інструментів пошукової системи). Є варіант (перевіряється за замовчуванням, якщо я добре пам’ятаю), що дозволяє панелі інструментів надсилати всі URL-адреси, які ви відвідуєте в Google. Це ще один спосіб для Google побачити приховану павутину. Тож навіть якщо ви сказали людині не ділитися URL-адресою, це неявно він зробить (завдяки панелі інструментів).

Я думаю, що ми можемо знайти багато інших можливостей.

Таким чином, ви можете додати його до robots.txt, але також надавати додаткові мета, такі як noindex, nofollow тощо.

редагувати:

Пропозиція w3d щодо robots.txt мені здається гарною. Тому не додайте його до robots.txt та надайте мета-тег пропр.


Я пов'язую їх електронною поштою. Так, я планував надати належні мета. Тож ваша пропозиція - додавати їх до роботів чи ні? Спасибі
мартно

Я рекомендую додати його до robots.txt. Але пропозиція w3d змінила мою думку. Не додайте його, але надайте належний метатег.
j0k

0

На додаток до вищезазначених коментарів, я хотів би також похвалити аутентифікацію HTACCESS як мінімум - таким чином ви можете надати користувачам комбінацію імені користувача / пароля протягом тривалості їх права на перегляд сторінок.

Якщо з проблемами конфіденційності є щось, то вам слід розглянути належний сценарій контролю входу.

Незахищена сторінка (незалежно від того, наскільки добре ви прихованою ви думаєте) може перетворити її в дику природу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.