Запитання з тегом «web-crawlers»

Комп'ютерна програма, яка отримує доступ до веб-сторінок для різних цілей (для скребки вмісту, для надання пошуковим системам інформації про ваш сайт тощо)

1
Запит Bingbot для Trafficbasedsspsitemap.xml, який не існує
Журнали веб-сайту, яким я керую, показують запит на неіснуючий файл Bingbot. Деталі запиту є Шлях: /trafficbasedsspsitemap.xml Useragent: "Mozilla / 5.0 (сумісний; bingbot / 2.0; + http://www.bing.com/bingbot.htm )" IP-адреса: 65.55.213.244 (зворотний пошук вирішено на msnbot-65-55-213-244.search.msn.com ) З якої причини Bingbot шукає цей файл? Що означає "Карта сайту SSP на основі трафіку"?

2
Чи є різниця між порожнім robots.txt і зовсім не robots.txt?
На веб-сервері, який я маю тепер адміністратору, я помітив, що robots.txt порожній. Мені було цікаво, чи є різниця між порожнім robots.txt і жодним файлом. Чи поводяться сканери по-різному в цих двох випадках? Отже, чи безпечно просто видалити порожній robots.txt?

8
Захист роботів від сканування певної частини сторінки
Як веб-майстер, який відповідає за крихітний сайт, на якому є форум, я регулярно отримую скарги від користувачів, що як внутрішня пошукова система, так і зовнішній пошук (наприклад, під час використання Google) повністю забруднені підписами моїх користувачів (вони використовують довго підписи, і це є частиною досвіду форуму, оскільки підписи мають багато …

4
Чи Yahoo Search такий самий, як зараз у Bing Search?
У нас були серйозні проблеми з (неймовірно) погано написаним павуком Yahoo в минулому , і в результаті ми їх заблокували. Марко Армент з Tumblr також поділився з нами своїми розчаруваннями 31.08.2009, що було фактором, який нас блокував. [Павук Yahoo] наповнює нас 70-200 запитами / секунду приблизно з 5:30 ранку EST. …

5
Чи реалізує павук Google JavaScript?
Це питання було переміщено із переповнення стека, оскільки на нього можна відповісти на веб-майстрах стека. Мігрували 9 років тому . Чи знає павук Google, як візуалізувати JavaScript або лише HTML?

6
Хороший інструмент для сканування мого сайту та допоможе мені знайти мертве посилання та від’єднані файли [закрито]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для обміну стеками для веб-майстрів. Закрито 6 років тому . У мене досить великий спадковий сайт з буквально тисячами PDF-файлів, які іноді обліковуються в базі даних, але часто це лише …

3
Чи можна сповільнити частоту сканування Baiduspider?
Багато було зроблено частоти повзання павуків Baidu. Це правда: «Байдуспідер повзе, як божевільний». Я відчував це явище на сайтах, з якими працюю. Принаймні в одному екземплярі я виявив, що Baiduspider повзає приблизно з тією ж частотою, що і Googlebot, незважаючи на те, що Baidu доставляє приблизно .1% стільки трафіку, скільки …

3
Який агент користувача потрібно встановити?
Є бот Ask, який встановлює цей заголовок: Mozilla/2.0 (compatible; Ask Jeeves/Teoma) Враховуючи це, у мене є такі питання: Якщо я пишу веб-сканер на ім'я Goofy, який користувальницький агент я повинен використовувати? Яка різниця, якщо я кладу Mozilla/2.0або Mozilla/5.0? Будь-які інші пропозиції щодо того, як я повинен відформатувати свій користувальницький агент, …

3
SEO - чуйний веб-сайт і копії меню
Кожен раз, коли я створюю чуйний веб-сайт, я зазвичай створюю 2 меню: 1 приховане та використовується для мобільних пристроїв, а інше відображається як головне меню, а потім приховане для показу мобільного меню. Щоразу, коли мова заходить про SEO та павуків, які переглядають веб-сайт, мені приїжджають зубріння за те, що вони …

3
Чи може robots.txt знаходитися в підкаталозі сервера?
У мене є підкаталог, який я хотів би приховати від веб-сканерів пошукової системи. Один із способів зробити це - використовувати robots.txtв кореневому каталозі сервера (стандартний спосіб). Однак кожен, хто знає URL-адресу веб-сайту та має деякі основні знання в Інтернеті, може отримати доступ до вмісту robots.txt та побачити заборонені каталоги. Я …

7
Як заблокувати павуків байду
Більшість моїх візитів - від павуків baidu. Я не думаю, що це зовсім не допомагає пошуковим системам, тому я думаю, як їх заблокувати. Це можна зробити за допомогою iptables? Я використовую nginx як свій веб-сервер.

3
Захистіть шкідливих ботів від розміщення спаму
Я пам’ятаю сайт, закритий через нецільове використання, і мені цікаво, чи є у ботів його частина. Якщо бот розміщує щось на своєму сайті, то якими способами я можу боротися з ним? Я думав встановити деякі файли cookie та змінити файли cookie через JavaScript + часову позначку та підпис (тому вчорашні …

3
Як Google знаходить домен без посилань на нього?
Нещодавно я зареєстрував новий домен, вказав його на свій існуючий сервер і створив мінімальну сторінку, просто сказавши "тестувати" та нічого іншого. Я щойно дізнався сьогодні, що сторінка вже індексується в Google! На сайт немає посилань (я навіть нікому не розповідав про домен, оскільки я ще нічого з цим не робив). …

4
Чи можуть файли robots.txt та sitemap.xml бути динамічними через переадресацію .htaccess?
У мене є багатомовний та багатодоменний сайт. Він працює через унікальну установку CMS (Drupal), тому у мене є одна коренева директорія. Отже, якщо у мене є статичний robots.txt, там я можу лише показувати файли для одного домену, наскільки я знаю. Чи можу я поставити рядок у .htaccess Redirect 301 /robots.txt …

2
Чи потрібно блокувати ботів із мого сайту та чому?
Мої журнали рясніють відвідувачами ботів, часто зі Східної Європи та Китаю. Боти ідентифікуються як Ahrefs, Lista, LSSRocketCrawler, Яндекс, Sogou тощо. Чи потрібно блокувати цих ботів із мого сайту та чому? Які з них мають законну мету збільшити трафік до мого сайту? Багато з них є SEO. Треба сказати, що я …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.