Як я можу зробити пошукові системи Github Wiki пошуковими системами? robots.txt, здається, забороняє це


9

Під час використання перевірки посилань W3C я виявив, що мій Github Wiki не можна сканувати:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Статус: (N / A) Заборонено robots.txt

Це прикро, тому що я хотів би, щоб люди легко знаходили цю Вікі в пошукових системах.

ЗАПИТАННЯ: Як я можу зробити мої пошукові системи Github Wiki пошуковими системами?
Або я помиляюся, і робота robots.txt Github насправді гаразд?


1
Я підозрюю, що відповідь приблизно така ж, як у цьому подібному питанні .
Джон С

Відповіді:


9

GitHub robots.txt явно забороняє сканувати сторінки вікі, наприклад в розділі Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Оскільки це файл роботів для всіх сайтів, його не обійти.

Це цікавий вибір, оскільки GitHub описує вікі-сайти як місце для "спільного використання контенту про ваш проект". Оскільки загальнодоступні вікі-файли за замовчуванням можуть редагувати будь-який користувач, можливо, це захист від спамерів.


0

У вікі GitHub можна шукати двигуни, які його підтримують. Дивіться перші два рядки https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

Це, мабуть, для розбору різних форматів вікі тощо.

Наприклад, пошук в Google "openrefine broker Protocol", і першим зверненням є сторінка під вікі проекту Github.


Хм, так чому Google індексує вікі Broker-Protocol , а не вікі OP?
Відар С. Рамдал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.