Як встановити новий мовний пакет для Tesseract 16.04


19

Щойно встановлений gscan2pdf v1.3.9, а також Tesseract. Щодо останнього, то спочатку він з’явився внизу мого списку встановленого програмного забезпечення, але зараз, здається, його вже немає, хоча все ще працює (я думаю).

У будь-якому разі я намагаюся перетворити PDF-файл відсканованого документа в текст, який можна редагувати, але документ не англійською мовою, тому gscan створює безлад.

Тільки варіанти я отримую , коли я йду на Tools > OCR > Language to recognizeце English, equі osd. Будь-які ідеї щодо того, як я можу встановити певний мовний пакет?

Я не досвідчений користувач Linux, тому покрокові інструкції будуть дуже вдячні.

Відповіді:


33

Просто встановіть потрібну мову ocr за допомогою цього:

sudo apt-get install tesseract-ocr-[lang]

Де [lang] може бути

all

АБО

afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid

1
«Рус» також повинен бути в списку
Will
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.