Як я можу перетворити фотографії паперових документів у відсканований документ?


44

Мій сканер зламався! У мене хороша камера, хоча я зробив кілька фотографій документів, які хочу сканувати ... Однак вони виглядають як фотографії з паперу, а не відскановані документи:

  • Зображення не плоскі
  • Освітлення не рівномірне (тіні, коли сторінка перекочується тощо)
  • Текст, очевидно, не обробляється текстом у форматі PDF, який можна вставити.

Вони просто не підходять для професійного використання, але вони близькі.

Я шукаю якусь річ (або метод), який може виконати будь-яке або все вищезазначене, щоб я міг перейти від декількох файлів JPG до єдиного [необов'язково] анотованого PDF усього цього, це у правильному форматі (A4 типово).

Будь-які пропозиції (окрім виходу та придбання нового сканера)?


1
На Android, Диск Google додаток може трохи обробити і отримати PDF-файл формату A4 з набору зображень (створивши нове "сканування") - застосувати B&W і трохи випрямлення (обидва в додатку, в той час як створюючи) на ньому, і це виглядає здебільшого (низької якості) сканування. OCR є більш важкою проблемою.
муру

Не знаю жодного програмного забезпечення Ubuntu, але я скасував сканер, виявивши, що на мобільному телефоні є додатки, які в основному роблять те саме. Ви можете переглянути додаток Genius Scan (для Android) або Scannable (для iPhone). Потім застосуйте, pdfjoinщоб зшити їх разом. Немає OCR, хоча.
Жос

Причина, чому я хочу це зробити через фотографії, а не через мобільний додаток, - це мій dSLR [буквально] приблизно в тисячу разів кращий за камеру мого телефону. І якщо немає нічого, що робить це одним махом, я насправді думаю, що можу впоратися з OCR самостійно. Є багато проектів з відкритим кодом, які роблять досить хорошу роботу.
Олі

Можливо, я просто реанімував свій сканер за допомогою липкої стрічки, тостів та варення, тому терміновість вимкнена, але я думаю, що це все ще цікава проблема.
Олі

Олі , я гуглі кілька прикладів на Stackexchange як цей tex.stackexchange.com/questions/94523/simulate-a-scanned-paper і цей stackoverflow.com/questions/8955425 / ... просто не впевнений , якщо я отримав своє питання прямо;)
JoKeR

Відповіді:


46

Існує кілька способів зробити це. Хоча всі мої запропоновані способи мають одну проблему, вони насправді не згладять вашу картину. Більш-менш хороша картинка все-таки буде потрібна.

Один з простих способів - спробувати програмне забезпечення ScanTailor

sudo apt-get install scantailor 

Для оптимізації фотографій вам доведеться пройти 6 кроків. На останньому кроці ви можете вибрати опцію "Зрівняти освітлення", це дасть гарний чистий вигляд!


Особисто я просто використовую GIMP . Але для досягнення поставленої мети вам потрібні основні навички.

sudo apt-get install gimp 
  1. обріжте малюнок бажаним способом
  2. використовуйте параметр Colors-> Curvesдля маніпулювання кольоровим виведенням таким чином, як вам потрібно ...

Відрегулюйте кольорові криві, щоб отримати гарний чистий вихід.


Ще одна приємна маленька програма - gscan2pdf , де ви також можете завантажувати фотографії та експортувати їх у форматі PDF. Існує навіть посилання на GIMP, щоб ви могли покращити фотографію, описаними вище кроками .

sudo apt-get install gscan2pdf 

1
Ніколи раніше не бачив ScanTailor. Це здається майже ідеальним, за винятком того, що я не можу розробити, як зберегти його як те, що я хочу зберегти (наприклад, PDF). Будь-які ідеї?
Олі

PS: Ласкаво просимо до Ask Ubuntu та Stack Exchange!
Олі

1
@ Олі вихід буде збережено у вибраній вами папці на початку. Як я зараз бачу, це зберігає це як Тіфф. Отже, ви хочете запустити convert file.tiff file.pdfконсоль.
wittich

2
О так, мій поганий. Я використовую кілька сторінок, тому я перетворять їх у png, find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;а потім приєднаюсь до них pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Просто замислюючись вголос, коли я забуду, як все це зробити :) Ще раз дякую.
Олі

2
ScanTailor був відкриттям !!! Як правило, я б робив усі ці речі в Gimp або в фірмовому додатку, наприклад, gimp, але у кравця сканування є лише ті функції, які мені потрібні для перетворення своїх зображень у скановані зображення, видаляючи весь шум :) Набагато простіше, ніж усі криві, до яких я звик переїзд у Гімп. Дуже дякую !!!
Костянтин

20

Щоб генерувати копію чи PDF-файл із фотографії з камери документа, нам потрібно вручну перетворити досить багато, щоб досягти зображення, схожого на вихід із сканера. Більшість цих перетворень можна здійснити за допомогою Gimp.

  1. Спробуйте зробити найкраще оригінальне зображення оригіналу :

    • Виберіть яскраве світло, щоб зменшити шум пікселів, але щоб уникнути рефлексій, кровотеч або нерівномірної дисперсії світла, не використовуйте спалах, якщо у вас немає студійного спалаху.
    • Якщо можливо, виберіть освітлення джерела щонайменше з двох сторін (зверху-вниз або вправо-вліво)
    • Фотографуйте з більшої відстані, використовуючи телефото, а не ширококутний об’єктив.
    • Використовуйте штатив, щоб уникнути струшування артефактів.
    • Наведіть камеру ортогонально на поверхню джерела.
    • Включіть простір, що межує з оригінальним джерелом.
  2. Для кращого контрасту та видалення кольорових піксельних артефактів розгляньте насиченість відтінків сірого .

    введіть тут опис зображення

  3. Відрегулюйте яскравість та контраст, щоб зробити імовірно сірий фон білим, а чорні літери темно-чорними.

    • Це можна швидко зробити за допомогою інструменту Gimp Colors> Levels , де ми можемо перетягнути чорну точку (зліва) та білу точку (праворуч) або вибрати чорно-білі точки за допомогою вибору кольору.

    введіть тут опис зображення

    • Тіні на зігнутих кутах неможливо видалити, не видаливши також частини тексту (див. 6.)
  4. Усунути викривлення подушки?

    Залежно від якості фотооб'єктива та рівня масштабування, який ми використовували, у нас можуть бути артефакти подушки, що призводять до згинання зовнішніх меж документа. Існують плагіни для видалення цих артефактів, але, можливо, нам буде швидше вибрати рівень масштабування нашої камери там, де вони лише мінімальні. Після обрізання (5.) ми можемо навіть більше не помічати їх. Тому видалення артефактів подушки може знадобитися лише у тому випадку, якщо наше вихідне зображення має багато прямих ліній у зовнішніх частинах.

  5. Обертання та обрізка або перспектива трансформують зображення, якщо це потрібно.

    На відміну від сканера, наша камера може не отримувати джерело паралельно рамкам зображення. Інструмент Gimp Rotate або Perspective надасть нам візуальний зворотний зв'язок, щоб мати можливість обертати або коригувати перспективу зображення, поки текстові рядки не будуть паралельно сторінці.

    введіть тут опис зображення
    Перспективний інструмент з правого боку

Тепер ми можемо вибрати джерело документа інструментом вибору прямокутника, щоб обрізати зображення всередині документа.

  1. Видаліть небажані тіні від згинання, складок або віньєтування артефактів з об’єктива камери.

    • Ці тіні важко видалити, і немає плагіна чи автоматичного фільтра, який би нам допоміг.
    • Теоретично ми могли б накласти градієнтну заливку на ці регіони, але це може не призвести до очікуваних результатів, отже, це не варто того часу, який нам знадобиться.
    • Тому найшвидший метод полягає у тому, щоб просто скористатися інструментом гумки, щоб видалити всі ці потворні тіні поза тексту (яких нам слід шкодувати).

      введіть тут опис зображення стерти -> введіть тут опис зображення

  2. Масштабне зображення?

    Залежно від роздільної здатності камери збільшення масштабу зображення до розміру сканера збільшує розмір файлу, але не матиме користі від якості зображення. Якщо зменшити масштаб, ви видалите деталі. Тому ми не повинні масштабувати зображення, а регулювати розмір друку з діалогового вікна принтера (або нижче у 8).

  3. Створити PDF

    Ми можемо імпортувати наше добре відреставроване вручну зображення в LibreOffice ( Вставка> Медіа ) в

    • Визначте його розміри
    • Експорт у форматі PDF
    • Друк (для мене друк з LibreOffice призводить до бажаного результату набагато частіше, ніж будь-що інше).

Дуже дякую за детальні кроки. Вони допомогли мені вирішити давню проблему перетворення фотографій на відскановані документи. Я повністю вражений силою трансформації перспективи.
Chethan S.

Дивовижна відповідь! Перспективний інструмент мене спочатку досить заплутав, тож ось чудовий посібник. Я додав 4 напрямні лінії, потім обробляйте кути зображення навколо, використовуючи інструмент перспективи, поки зображення не було квадратним з усіма 4 вказівками.
Габріель Степлес

(24 години пізніше). На жаль! Я забув посилання. Ось посібник, про який я говорив: lifewire.com/… .
Габріель Степлес

1

Якщо у вас вже є зображення документа, просто завантажте додаток CamScanner на телефон / планшет. Це дозволить вам імпортувати зображення, потім зробить запропоновану обрізку та дозволить вирівняти, а також налаштувати кольори / контраст тощо. Займає лише хвилину.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.