Як менше відображається PDF-файлів?


52

Я спробував декілька програм: pdftotext, pdf2txt.py, ... Усі вони можуть витягувати текст з PDF-файлів, але той, хто робить кращу роботу, є гарним less: «Текст з PDF має правильний макет. Як менше це робити? Чи використовується бібліотека чи вбудована обробка PDF?

Я прошу, тому що я хотів би використовувати цю функціональність програмно, без обов'язкового запуску менше, ніж зовнішньої програми (я роблю пітон).

Моя система:

» less --version
less 458 (GNU regular expressions)
Copyright (C) 1984-2012 Mark Nudelman

less comes with NO WARRANTY, to the extent permitted by law.
For information about the terms of redistribution,
see the file named README in the less distribution.
Homepage: http://www.greenwoodsoftware.com/less

» uname -a
Linux polyphemus 3.13.0-53-generic #89-Ubuntu SMP Wed May 20 10:34:39 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

Відповіді:


63

Ваш дистрибутив, ймовірно, використовує популярний lesspipe.shсценарій. Перевірте LESSOPENзмінну середовища.

Цей сценарій існує у багатьох варіантах. Я переглядаю версію Gentoo. У ньому ви знайдете наступний рядок:

*.ps|*.pdf) ps2ascii "$1" || pstotext "$1" || pdftotext "$1" ;;

Це означає, що він спробує виконати ці команди у порядку, що відображається. $1- це ім'я файлу.

Інша версія використовує таку команду:

pdftohtml -stdout "$t" | parsehtml -

15
Дякую, виявляється, він використовуєpdftotext -layout $1 -
dangonfast

@ jeckyll2hide Ви знайшли пояснення до кращих результатів із меншими?
vvy

@vvy Напевно, -layoutперемикач. ;)
Даніель Б
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.