У мене є Linux Mint 17,2 x32 Кориця. Можливо, ці кроки також працюватимуть і в Ubuntu 14.04 x32.
- Встановіть Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Ви можете додати інші мови, встановивши додаткові пакети. Цей скріншот зроблений із синаптичних:
мовних пакетів Tesseract в Synaptic
Використання Tesseract
ВАРІАНТ 1 - відкрийте термінал командного рядка, потім перейдіть до папки, де ви зберігаєте файли зображень (jpg, png) та запустіть команду:
а) конвертувати всі файли зображень у текст
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Щоб об'єднати всі текстові файли в один, запустіть команду cat *.txt >> all.txt
б) конвертувати всі файли зображень у файли hocr (відкрити за допомогою Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
ВАРІАНТ 2 - від GUI
a) Встановіть gImageReader і використовуйте його
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
б) Друге застосування - В'єтократ. Фактична версія 4.0, тому завантажте VietOCR-4.0.zip
Розпакуйте файли та відкрийте VietOCR.jar Java:
Відкрийте VietOCR через Java
Якщо у вас немає встановленої Java, ви можете встановити її з сховища або Ви можете встановити офіційний Oracle Java 8. Етапи встановлення Oracle Java 8 в Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Я рекомендую VietOCR, тому що він дозволяє вам OCR pdf-файли, опціональне перетворення також є варіантом.