Як я можу змусити Google проіндексувати свої документи PDF?


14

У нас виникають проблеми з тим, щоб Google індексував PDF-файли на нашому сайті. Є близько 50 PDF-файлів і розмір діапазону від 20 Кб до трохи менше двох мег. Вони не захищені, їх можна читати анонімно, і всередині PDF Reader можна шукати документ.

Вони перераховані в SiteMap.xml. Я навіть можу переглянути журнали IIS і побачити Googlebot, який читає PDF-файли, але, за винятком п'яти, вони ніколи не включаються до результатів пошуку.

Якщо я роблю filetye: pdf, з'явилося лише п'ять PDF-файлів. Якщо я шукаю текст, який я знаю, знаходиться у форматі PDF, PDF-файли ніколи не відображаються (крім п’яти, які індексуються).

Хтось має уявлення, чому понад 45+ PDF-документа не включаються до індексу, хоча вони є в мапі сайту та Googlebot читає їх?


Ви вказуєте тип вмісту для Google?
Кріс Баланс

Відповіді:


4

чи всі pdfs розташовані на одному місці? У мене колись була проблема, що одне з моїх pdf-місць знаходилось всередині папки, яка була виключена robots.txt. Подайте свою мапу сайту безпосередньо на сайт інструментів google-webmaster, і ви можете отримати цінну інформацію про те, чому не відображаються файли pdfs. у моєму випадку google сказав мені: «ей, ці 54 PDF-файли є у вашій мапі сайту, але через обмеження robots.txt ми не можемо їх індексувати». так що це було дуже корисно. але пам’ятайте, що каже коментатор, це може зайняти деякий час, поки ця інформація не з’явиться.

Інструменти Google для веб-майстрів: https://www.google.com/webmasters/tools


Я просто додам, що Google Webmaster Tools не надає всю інформацію в режимі реального часу. Це все ще життєво важливий ресурс.
Ліам

Ні, PDF-файли розташовані на кількох різних місцях на сайті. Я перевірив, і жоден з них не блокується robots.txt. Я використовував Інструменти для веб-майстрів і надсилав Sitemaps, і буду приймати це. Дякуємо за відгуки Джим

1

Між Google, який спочатку читав ваш вміст, і тим, що відображається в індексі, може бути досить відставання Нещодавно ми знову запустили сайт, представивши мапи сайту в Google при запуску, і пройшло приблизно 3 тижні, щоб нові сторінки почали відображатися в результатах пошуку.

Як давно ви надсилали ці PDF-файли через свою мапу сайту?

(крім п'яти, які індексуються)

Це здається, що ваші PDF-файли індексуються, але це потребує певного часу. Припускаючи, що немає різниці в способі генерування неіндексованих PDF-файлів, я б підозрював, що індекс потребує певного часу, щоб оновити.

З незначної дотичної точки зору , один корисний інструмент, на який я рекомендую зареєструватися, - це веб-майстер Google - він показує вам швидкість сканування, проблеми з вашим сайтом, мапи сайту та індексацію протягом дня або близько того, як Googlebot потрапив на ваш сайт. Це може заощадити трохи часу на перегляд ваших журналів IIS.


Минуло близько чотирьох тижнів, як ми вперше представили свою мапу сайту. Я щойно помітив, що минулої ночі вони індексували ще чотири; тому, можливо, мені просто потрібно чекати :)

Коли ви знову запустили сайт, якщо минуло 3 тижні, щоб нові сторінки почали відображатися в результатах пошуку, чи це не означало, що за 3 тижні пошук повертав результати на сторінки, які вже не існували на вашому сайті? це не призвело до багатьох умов "сторінки не знайдено"?

У нашій ситуації повторний запуск спільно з запуском нового розділу, старі посилання ще функціонували - три тижні був час, коли новий розділ почав з’являтися. Випадковий час очікування може трохи засмутити добре!
ConroyP

0

Чи скануються ваші PDF-файли OCR, щоб текст був обраний і був доступний для пошуку? Або файли PDF скануються без OCR, і в такому випадку текст зберігатиметься як велике зображення? Якщо PDF - це всі зображення, я не думаю, що Google може його індексувати (поки що). Або Google вже знайшов ваші сторінки?


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.