Крім того , підкоряючись robots.txt, підкорятися nofollow
і noindex
в <meta>
елементах і посилання:
Є багато людей, які вважають, що robots.txt не є правильним способом блокувати індексацію, і завдяки цій точці зору доручили багатьом власникам сайтів покладатися на <meta name="robots" content="noindex">
тег, щоб сказати веб-сканерам не індексувати сторінку.
Якщо ви намагаєтеся створити графік зв’язків між веб-сайтами (що-небудь схоже на PageRank),
(і <meta name="robots" content="nofollow">
) повинен вказувати, що вихідний сайт недостатньо довіряє цільовому сайту, щоб надати йому належне схвалення. Тож, хоча ви можете проіндексувати цільовий сайт, вам не слід зберігати відносини між двома сайтами.
SEO - це більше мистецтво, ніж реальна наука, і його практикує багато людей, які знають, що роблять, і багато людей, які читають резюме людей, які знають, що роблять. Ви зіткнетеся з проблемами, коли вас заблокують веб-сайти за те, що інші сайти вважаються цілком прийнятними через якесь правило, яке хтось підслухав або прочитав у публікації блогу на SEOmoz, яка може бути, а може і не трактуватися правильно.
Через цей людський елемент, якщо ви не Google, Microsoft чи Yahoo !, ви вважаєтесь злісними, якщо не доведено інше. Вам потрібно бути особливо обережним, щоб діяти так, ніби ви не загрожуєте власнику веб-сайту, і діяти відповідно до того, як ви хочете, щоб потенційно шкідливий (але сподіваюся доброякісний) гусеничний діяв:
- перестаньте сканувати сайт, коли виявите, що вас заблокували: 403/401 на сторінках, на яких ви знаєте роботу, дроселювання, тайм-аути тощо.
- уникайте вичерпних сканів за відносно короткі проміжки часу: скануйте частину сайту та поверніться пізніше (через кілька днів), щоб сканувати іншу частину. Не робити паралельних запитів.
- уникайте сканування потенційно чутливих областей: наприклад, URL-адреси з
/admin/
ними.
Навіть тоді це буде битва на високій горі, якщо ви не вдаєтеся до техніки чорної капелюхи, наприклад, підробляння UA або навмисне маскування шаблонів сканування. шанс, що хтось не намагається "зламати їх сайт". Підготуйтеся до великої кількості невдач.
Одне, що ви можете зробити для боротьби з негативним зображенням, яке буде мати невідомий сканер, - це зрозуміти в рядку вашого агента користувача, хто ви:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
Де http://example.com/aarobot.html
пояснено, що ви намагаєтеся досягти і чому ви не загрожуєте. На цій сторінці має бути кілька речей:
- Інформація про те, як зв’язатися безпосередньо з вами
- Інформація про те, що збирає гусеничний та чому це збирає
- Інформація про відмову та видалення будь-яких зібраних даних
Останнє є ключовим: хороша відмова - це як гарантія повернення грошей ™ і набирає необгрунтовану кількість доброї волі. Це повинно бути гуманним: один простий крок (або адреса електронної пошти, або, в ідеалі, форма), і всеосяжний (не повинно бути жодних "gotchas": відмова означає, що ви припиняєте сканування без винятку).