Як я можу видалити та обрізати PDF-файли зі сканованих сторінок * автоматично *? [дублікат]


13

Можливий дублікат:
яке вільне програмне забезпечення я можу використовувати для усунення сканованих зображень

У мене є кілька PDF-файлів, складених сканування сторінок книг. Сканування виробляються з двох сторінок одночасно, і деякі з них скануються, завдяки чому текст здається трохи нахиленим.

Я шукаю інструмент, який міг би дозволити мені зробити автоматичну оптимізацію шляхом усунення сканування, не втрачаючи читабельності. Я знайшов програмне забезпечення GPL Briss, щоб обрізати скани, щоб мати співвідношення сторінок 1: 1 замість 2: 1, але я не маю жодного інструменту для вилучення сторінок.

Я натрапив на папір , ще один інструмент з відкритим кодом, який здається ідеальним для того, що я хочу зробити, але цей інструмент є лише Linux, і він не працює безпосередньо у файлах PDF.

Будь-який натяк цінується.


1
@random: Чому це питання було закрито ?? Чому ця тема вимагає "дискусій, аргументів, опитування чи розширеної дискусії"?!?
Курт Пфайфл

1
"Шукаю інструмент", в значній мірі опитування послуг призводить до неконструктивно близької причини @kur
випадково

1
@andom: Це запитання змусило мене зробити кілька досліджень з цієї теми, і я знайшов цікаві варіанти переконати. Найцікавішим є використання ImageMagick для цього, і це здається напрочуд простим. На жаль, ваше закриття цього питання не дозволяє мені опублікувати свою відповідь.
Курт Пфайфл

@random: Зараз я трохи відредагував це питання. Сподіваємось, це тепер більше відповідає вашому відчуттю «конструктивності».
Курт Пфайфл

@random: Гаразд, "закриття як дублікат" для мене краще прийнятне в цьому випадку.
Курт Пфайфл

Відповіді:


9

Погляньте на декеу . Це інструмент командного рядка. Здається, що поштовий індекс * включає в себе двійкові файли для Windows, MacOSX та Linux.

Ліцензія - MPL (Mozilla) або LPGL (GNU), що б ви не хотіли.

Єдиним недоліком для вас, здається, є те, що він не споживає файли PDF, а лише зображення PNG та TIFF (AFAICS). Це означає, що вам доведеться налаштувати робочий процес s.th. подобається:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

Я його ще не перевіряв (поки що), я нещодавно натрапив на веб-сайт і зробив закладки на ньому.


deskewмені вдалося виправити спотворення, пов'язане з обертанням, у моєму тестовому пробігу, але, на жаль, воно ввело тонку сіру лінію в положенні вихідної межі зображення. Щоб позбутися від сірої рамки, я обрізав зображення з -extentможливістю " mogrify. Я тестувався лише на OS X, можливо, це неправильне поведінка залежить від платформи.
Стефан Шмідт

deskewпрацює дуже добре. Мій робочий виглядає так: pdfimages -all <pdf> my_imagesJBIG2 -s -p -v my_images* > outputpdf.py output > deskewed.pdfЯкщо чорні кордону (результат роботи Вирівнювання) набридає вам, деяка обробка з ImageMagick може бути необхідним, як було запропоновано @StefanSchmidt
г - н Тао

5

О, дозвольте додати ще одну відповідь. Я просто згадав netpbm . Не використовував його роками, але я думаю, що я повинен по-новому подивитися ...

netpbm - це дуже потужний інструментарій для командного рядка для маніпулювання графічними зображеннями. Він постачає майже 300 окремих інструментів. Він включає перетворювачі для приблизно 100 графічних форматів.

А також він має інструмент командного рядка, який може обертати зображення:

pnmrotate

І у нього є ще один інструмент, який намагається виявити кут повороту зображень:

pamtilt

pamtiltповертає плаваюче число його здогадки обертання зображення. Тож автоматичне скидання зображень повинно бути в межах досяжності. Для цього можна написати сценарій оболонки. Це вимагатиме різних кроків:

  1. Перетворіть сторінку PDF у формат зображення, відповідний netpbm, за допомогою Ghostscript.
  2. Використовуйте pamtiltдля автоматичного виявлення кута нахилу зображення.
  3. Використовуйте pnmrotateдля скасування зображення.
  4. Повторно перетворіть зображення в PDF.

Якщо ви надасте мені доступ до невеликого зразка ваших PDF-файлів, я можу спробувати створити сценарій оболонки, щоб виконати подвиг.


(Мені дуже цікаво, що [netpbm] не надсилає тег тут на суперпользователь + stackoverflow.)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.