Скануйте багато сторінок прямо в PDF


36

Чи є якась проста програма у користуванні Ubuntu, яка може сканувати багато сторінок прямо у PDF-файл?


Цікаво, чи є якась спеціальна кваліфікація для сканерів / принтерів, яку я хотів би використовувати в Ubuntu?
JFW

@JFW, ось список підтримуваних пристроїв для XSane, бек-енд, який використовується більшістю сканерів Ubuntu. Принтер / сканер HP / копіювач HP здається хорошим надійним вибором, якщо ви шукаєте.
poolie

Відповіді:


38

Ідея створення простої утиліти сканування стояла за розробкою, ну, Simple Scan - інструменту сканування, встановленого за замовчуванням з 10.04 по тому (Програми ‣ Графіка ‣ Просте сканування). alt текст

Просто скануйте стільки сторінок, скільки вам потрібно, і під час збереження виберіть PDF як формат файлу.

Ще одна менш проста програма, яка пропонує додаткові функції, такі як розпізнавання тексту, - це gscan2pdf , також у сховищах. alt текст


3
+1 для простого сканування - це так просто і просто, але теж дуже потужно - особливо підходить для роботи, яку ви згадали.
8128

6

"Простота у використанні" є в очах користувача, але xsaneзабезпечує цю функціональність. Виберіть багатосторінкову сторінку, де пишеться переглядач (або натисніть CTRL-M), і звідти це не повинно бути надто складно.


1
Особисто я бачу xsane далеко не простий у використанні ...
8128

Я весь цей час використовую xsane. Мені ніколи не спадало на думку, що може бути кращий інструмент.
Аманда

3

Я використовував, xsaneпоки не побачив це питання і не вважав його інтерфейс ідіосинкратичним як мінімум, але ефективним.

Побачивши це запитання, я пішов шукати і знайшов gscan2pdf, що живе в сховищах Ubuntu Lucid / Maverick. Він використовує той же скануючий (лібсановий) двигун, але користувальницький інтерфейс набагато більше, ніж Gnome-ish. Для гарного часу спробуйте:

sudo apt-get install gscan2pdf

3

Змініть ім'я файлу з myfile.jpg на myfile.pdf у діалоговому вікні збереження простого сканування.

Тестовано на Ubuntu 14.04, Просте сканування 3.12.1.

Це працює, навіть якщо спадне меню типу файлу не містить "PDF", а лише "Зображення". Я вважаю це помилкою в інтерфейсі.

Ця функція задокументована на Help > Contents:

У діалоговому вікні "Зберегти як" виберіть один із підтримуваних типів файлів або просто змініть розширення в полі "Ім'я".

У ньому сказано, що підтримуються такі формати:

  • PDF
  • JPEG
  • PNG
  • TIFF

Цікавий факт: якщо ви зміните тип сканування (спадне меню, окрім "Сканування"), на "Текст", тип файлу за замовчуванням стає PDF.


1

Сканування сторінок із USB-сканера. Використовуйте tesseract для OCR в PDF. Об’єднайте кілька сторінок в один PDF. Використання: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}

це дуже Linuxoidal метод
Rth

1

Для тих, хто хоче скористатися XSANE. Коли ви прочитаєте посібник із налаштування, пов’язаний із Help> XSane Doc в програмі, він дуже потужний та інтуїтивно зрозумілий, наскільки ви можете з цим зробити. Також варто перевірити, чи працює ваш сервер SANE належним чином (не надто специфічно для Arch): https://wiki.archlinux.org/index.php/SANE

Якщо ви хочете автоматично сканувати документи з фідера і цікавитесь, чи знатиме XSane, коли зупинитись (і не зупинятися занадто рано), просто введіть число вгорі зліва (кількість піктограми сканування), що перевищує кількість сторінок, які підходять у вашій годівниці. Тобто, якщо ваш фідер може займати 10 сторінок, тоді введіть 15 (для врахування зміни товщини). Якщо у вас є дуплексний сканер, подвійно це число.

Коли фідер закінчиться, ви отримаєте діалогове вікно із зеленим трикутником з попередженням "Скановані сторінки: 0". Це просто означає, що фідер порожній, і ви можете закрити діалогове вікно. Якщо ви вибрали "переглядач" чи "зберегти" "У верхньому правому куті XSane файли будуть усі. Не забудьте зберегти їх у глядача. Тепер ви можете натиснути сканування ще раз, щоб продовжити там, де ви зупинилися, з тим, що цифри збільшуються з тієї ж точки, або ви можете почати новий проект. Не буде додано порожніх сторінок. Якщо ви вибрали "Багатосторінка", діалогове вікно проекту повинно відображати всі завершені сканування, і ви можете натиснути для збереження у вигляді багатосторінкового PDF або TIFF або PostScript.

HTH,

Постійного струму

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.