Чи сканують PDF-файли пошукових систем, і якщо так, чи є правила, яких слід дотримуватися під час їх створення


22

Веб-сайт, над яким я працюю, містить у ньому кілька сотень PDF-файлів. Я не думаю, що я ніколи не бачив, щоб хтось із них повернувся в пошуках, але вони пов'язані безпосередньо з сайту. Вони також переповнені ключовими словами, тому що це документи на товар.

Чи потрібно щось особливе зробити, щоб Google або інші пошукові системи сканували їх?

Чи існують якісь жорсткі та швидкі правила для створення PDF-файлів, щоб Google міг подобатися їм більше? Наприклад, чи слід запускати їх через ghostscript, щоб очистити розбиті теги PDF, які Adobe створює під час покоління?


Додайте до своєї карти XML, щоб переконатися, що вони їх знають?
artlung

Відповіді:


17

Google напевно індексує PDF-файли, і ви можете шукати лише PDF-файли, додаючи filetype:pdfдо свого пошукового запиту ( приклад ).

Я б сказав, що головне, що потрібно зробити для оптимізації PDF, щоб його легко індексувати було б:

  • Дайте йому значущу назву файлу
  • Заповніть усі властивості метаданих документа (заголовок, автор, ключові слова тощо)
  • Переконайтеся, що ваш PDF складається з фактичного тексту, а не відсканованих зображень
  • Переконайтесь, що у вас є вміст із правильним використанням заголовків так само, як у HTML-документі

Для отримання додаткових порад читайте Оптимізація документів PDF та Одинадцять підказок для оптимізації PDF-файлів для пошукових систем


посилання labs.justsearching.co.uk/optimizing-pdf-documents-621.html більше не працює

@Christofian Спасибі - я оновив посилання. Я залишу це для читача, щоб оцінити іронію SEO-компанії, яка перейменовує їх посилання, не маючи жодних перенаправлень 301!
Дан Дипл

@DanDiplo щодо SEO-файлів у форматі PDF, я б запропонував додати посилання на вміст, якщо це можливо.
Анагіо

1

Я не впевнений в інших пошукових системах, але що стосується Google, головним правилом було б не виключати їх через robots.txt

Це було їх перше оголошення про підтримку пошуку в PDF.


1

Так само, як зробити веб-сайт сумісним не може зашкодити вашому SEO, так що ваш доступ до PDF не може зашкодити. Вбудована програма перевірки доступності Adobe далеко не досконала, але принаймні виправлення цих областей почне вам працювати.

Я, мабуть, витрачаю 5 хвилин на кожні 4 або 5, переважно текстові PDF-файли, які ми розміщуємо в Інтернеті. Час іде рівномірно залежно від кількості сторінок та наскільки складні ці сторінки.

Припустимо, що у вас є Adobe Acrobat Pro для редагування:

  • Запустіть повну перевірку доступності. (Швидка перевірка для мене досить безглузда)
  • Оновіть метаінформацію у властивостях документа (ключові слова, тема, мова тощо)
  • Переконайтеся, що теги додані
  • Переконайтеся, що текст позначений як текст, зображення як зображення, фонові матеріали як тло
  • Позначте марно пушок (як прикраса або дизайн) як фон
  • Додайте добрий альт-текст до зображень
  • Переконайтесь, що в порядку читання текст упорядкований належним чином
  • На панелі інструментів вмісту переконайтесь, що текст не дублюється чи не є грубо перекладеним
  • Використовуйте сканер OCR на відсканованих сторінках

Для більш вдосконаленого редагування, таких як таблиці та дійсно дивні помилки Adobe, ми використовуємо плагін під назвою CommonLook. CommonLook виконує роботу, але я ненавиджу її майже так само, як ненавиджу інструменти Adobe.

Ознайомтеся з інструментом "Порядок читання", панеллю "Теги", панеллю замовлень читання та панеллю вмісту. Моя робота вимагає повністю сумісних документів, перш ніж виходити в Інтернеті, але будь-хто може скористатися простими властивостями тегів та документів.


На нашому веб-сайті було понад 5000 PDF-файлів, які нам довелося повернути і довести до повного 508 відповідності. Навчився певний час, але запропонований тренером Adobe не допомагав, але як тільки ви його навчитесь, ви можете дійсно застебнути їх.
MrChrister
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.