Чи є якась проста програма у користуванні Ubuntu, яка може сканувати багато сторінок прямо у PDF-файл?
Чи є якась проста програма у користуванні Ubuntu, яка може сканувати багато сторінок прямо у PDF-файл?
Відповіді:
Ідея створення простої утиліти сканування стояла за розробкою, ну, Simple Scan - інструменту сканування, встановленого за замовчуванням з 10.04 по тому (Програми ‣ Графіка ‣ Просте сканування).
Просто скануйте стільки сторінок, скільки вам потрібно, і під час збереження виберіть PDF як формат файлу.
Ще одна менш проста програма, яка пропонує додаткові функції, такі як розпізнавання тексту, - це gscan2pdf , також у сховищах.
"Простота у використанні" є в очах користувача, але xsane
забезпечує цю функціональність. Виберіть багатосторінкову сторінку, де пишеться переглядач (або натисніть CTRL-M), і звідти це не повинно бути надто складно.
Я використовував, xsane
поки не побачив це питання і не вважав його інтерфейс ідіосинкратичним як мінімум, але ефективним.
Побачивши це запитання, я пішов шукати і знайшов gscan2pdf, що живе в сховищах Ubuntu Lucid / Maverick. Він використовує той же скануючий (лібсановий) двигун, але користувальницький інтерфейс набагато більше, ніж Gnome-ish. Для гарного часу спробуйте:
sudo apt-get install gscan2pdf
Змініть ім'я файлу з myfile.jpg на myfile.pdf у діалоговому вікні збереження простого сканування.
Тестовано на Ubuntu 14.04, Просте сканування 3.12.1.
Це працює, навіть якщо спадне меню типу файлу не містить "PDF", а лише "Зображення". Я вважаю це помилкою в інтерфейсі.
Ця функція задокументована на Help > Contents
:
У діалоговому вікні "Зберегти як" виберіть один із підтримуваних типів файлів або просто змініть розширення в полі "Ім'я".
У ньому сказано, що підтримуються такі формати:
Цікавий факт: якщо ви зміните тип сканування (спадне меню, окрім "Сканування"), на "Текст", тип файлу за замовчуванням стає PDF.
Сканування сторінок із USB-сканера. Використовуйте tesseract для OCR в PDF. Об’єднайте кілька сторінок в один PDF. Використання: scan2PDF outputfilename number_of_pages
#!/bin/bash
#scan2PDF
#Requires: tesseract 3.03 for OCR to PDF
# scanimage for scanning, I use 1.0.24
# pdfunite to merge multiple PDF into one, I use 0.26.5
#
# Use scanimage -L to get a list of devices.
# e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
# then copy/paste genesys:libusb:006:003 into SCANNER below.
# play with CONTRAST to get good images
DPI=300
TESS_LANG=nor #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003 #My USB scanner
CONTRAST=35 #Contrast to remove paper look
FILENAME=$1 #Agrument 1,filename
PAGES=$2 #Argument 2, number of pages
re='^[0-9]+$' #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi
SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp
if [ -d ${TMP_DIR} ] #Check if it exists a directory already
then
echo Error: The directory ${TMP_DIR} exists.
exit 2
fi
mkdir ${TMP_DIR} #Make and go to temp dir
cd ${TMP_DIR}
echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES} --batch-prompt
echo Starts Tesseract OCR
for file in *.tif #Goes through every tif file in temp dir
do
tesseract $file ${file%.tif} -l ${TESS_LANG} pdf
done
if [ "$PAGES" = "1" ] #How many pages
then
cp out1.pdf ../${FILENAME}.pdf #Only one page, just copy the PDF back
else
for file in *.pdf #More pages, merge the pages into one PDF and copy back
do
pdfuniteargs+=${file}
pdfuniteargs+=" "
done
pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
echo ${FILENAME}.pdf done
rm * #Done, clean up
cd ..
rmdir ${TMP_DIR}
Для тих, хто хоче скористатися XSANE. Коли ви прочитаєте посібник із налаштування, пов’язаний із Help> XSane Doc в програмі, він дуже потужний та інтуїтивно зрозумілий, наскільки ви можете з цим зробити. Також варто перевірити, чи працює ваш сервер SANE належним чином (не надто специфічно для Arch): https://wiki.archlinux.org/index.php/SANE
Якщо ви хочете автоматично сканувати документи з фідера і цікавитесь, чи знатиме XSane, коли зупинитись (і не зупинятися занадто рано), просто введіть число вгорі зліва (кількість піктограми сканування), що перевищує кількість сторінок, які підходять у вашій годівниці. Тобто, якщо ваш фідер може займати 10 сторінок, тоді введіть 15 (для врахування зміни товщини). Якщо у вас є дуплексний сканер, подвійно це число.
Коли фідер закінчиться, ви отримаєте діалогове вікно із зеленим трикутником з попередженням "Скановані сторінки: 0". Це просто означає, що фідер порожній, і ви можете закрити діалогове вікно. Якщо ви вибрали "переглядач" чи "зберегти" "У верхньому правому куті XSane файли будуть усі. Не забудьте зберегти їх у глядача. Тепер ви можете натиснути сканування ще раз, щоб продовжити там, де ви зупинилися, з тим, що цифри збільшуються з тієї ж точки, або ви можете почати новий проект. Не буде додано порожніх сторінок. Якщо ви вибрали "Багатосторінка", діалогове вікно проекту повинно відображати всі завершені сканування, і ви можете натиснути для збереження у вигляді багатосторінкового PDF або TIFF або PostScript.
HTH,
Постійного струму