Перетворити зображення в текст


8

Я отримав відсканований графічний документ із банку і хочу перетворити його у звичайний текстовий документ із зображеннями в Ubuntu.

Чи є інструмент для цього?

Відповіді:


15

Існує ряд читачів OCR для Linux, які можуть конвертувати з зображення в текст. Подивіться на наступні варіанти:

Все вищезазначене, крім ocropus, присутнє в сховищі Ubuntu в однойменному пакеті.

Різні читачі підтримують різні формати зображень, тому ви можете бути обмежені у своїх можливостях форматом файлу, в якому знаходиться ваш документ. Як варіант, ви можете використовувати інструмент перетворення з ImageMagick, щоб змінити формат, якщо ви хочете використовувати певний зчитувач OCR.

Адаптований з моєї відповіді тут .


0

Спочатку потрібно встановити "tesseract-ocr" на вашу машину Linux.

sudo apt-get install tesseract-ocr

Ви можете зробити це вручну з CLI або я зробив код PHP для того ж, ви можете використовувати його, якщо хочете.

Примітка. Для запуску цього коду слід увімкнути команду exec у php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

помістіть цей код у кореневу папку та отримайте доступ до нього з браузера,

наприклад:

http://yourserver.com?input_file=1.png

Примітка: файл 1.png повинен бути у вашому поточному каталозі.

Я не маю прав на завантаження зображення, я використав це зображення для довідки, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.