Спроба конвертувати PDF у текст безкоштовно


11

Я використовую OSX і хотів би мати можливість конвертувати PDF-файли в текст.

Я хотів би, щоб це було зроблено безкоштовно, оскільки я впевнений, що має бути.


2
Ви хочете витягти текст з PDF-файлів, які вже містять текст? (наприклад, ви можете скопіювати і вставити шматки з них) Або ви бажаєте розпізнати текст, який є у вмісті зображення?
Alan Shutko

Лі free-ocr.com допомогти?
Tim

Відповіді:


10

На запит Patrix наведемо кроки, які я використовував для встановлення та використання xpdf через Homebrew:

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

Виконайте вказівки, щоб завершити інсталяцію Homebrew, а потім виконайте такі дії:

brew install Caskroom/cask/xquartz

brew install xpdf

pdftotext 98789_LogiqueAnalyse_232_08.pdf 98789_LogiqueAnalyse_232_08.txt

Перше ім'я файлу було існуючим PDF; другий - призначення. Результати виявилися набагато кращими, ніж з (звичайно старої) версією Adobe Acrobat.


2
Я думаю, що xquartz для інструментів консолі в xpdf. Крім того, є poppler вилка xpdf що набагато активніше підтримується: github.com/scraperwiki/scraperwiki-python/issues/…
Jeroen Wiert Pluimers

4

Кілька методів.

  1. Використовуйте Документи Google (Вам потрібен обліковий запис Google)

  2. Використовуйте Автоматизатор (потрібна робота)

За допомогою Automator можна створити робочий процес, з якого можна витягувати текст   PDF-файли та зберегти їх як текст або документ RTF.

extract text from pdf

або додаток з App Store, наприклад, PDF до тексту


4

Поточна версія Adobe Reader (11.0.09) має пункт "Зберегти як інше" у меню "Файл".

Одним з варіантів є Текст .

Додаток є безкоштовним, і робить гідну роботу виведення текстових файлів. Всі зображення в новому документі будуть втрачені у форматі .txt.


2

xpdf яку я встановив з портами:

port install xpdf

містить:

xpdf-pdftotext

Він робить те, що ви хочете для будь-якого PDF-файлу, який надходить з текстовий файл (а не зображення):

xpdf-pdftotext PDF_file text_file

1
Команда, щонайменше встановлена ​​HomeBrew, це просто "pdftotext".
Flash Sheridan

@FlashSheridan Чи можу я заохочувати вас розмістити відповідь, що охоплює "pdftotext" і як встановити його за допомогою homebrew? Коментарі можуть видалятися в будь-який час (а також не відображатися в пошуках).
nohillside

0

Думаю, ви повинні скопіювати та вставити текст в інший документ. Щоб вибрати весь текст

Відкрийте PDF у "Попередньому перегляді" та

  • виберіть "Змінити | Вибрати все"
  • виберіть "Змінити | Копіювати"

Перейдіть до іншої програми, скажіть "Редагування тексту"

  • виберіть "Змінити | Вставити"

Зауважте, що якщо ви спробуєте зробити це, а текст не буде вставлено, просто порожні рядки спробуйте надрукувати свій PDF-файл до нового PDF-файлу, наприклад,

  • У вікні попереднього перегляду виберіть "Файл | Друк"
  • У нижньому правому куті виберіть "PDF | Зберегти як PDF"
  • Це експортує новий PDF.

Тепер спробуйте цей процес за допомогою цього нового PDF-файлу. Працював для мене!


1
Хоча це має працювати, коли документ PDF фактично містить текст зміст, він не підтримує форматування і в деяких випадках виробляє сміттєвий текст разом з тим, що буде вважатися шуканим текстом. Зауважте, що це може бути те ж саме з іншими методами, але мені було важливо зазначити.
user3439894

без сумніву - не досконалий напевно, і я повністю згоден з усім, що ви сказали. Я лише додаю його тут як опцію, яку я помітив раніше, що працював для мене, не встановлюючи нічого ;-)
Brad Parks
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.