Чи всі зараз роблять все важко, тому що програми складніші, ніж потрібно. Я прочитав, що ви зробили, ви освоїли повний контроль відсканованого тексту тексту, за винятком незначного переформатування.
Ціле питання я просто не розумію. Коли у нас є OCR з найпростішим безкоштовним програмним забезпеченням, яке постачається зі сканером, воно може дати мені 3 простих речі.
Текст , сирий текст так, як я цього найбільше хотів, ні форматування, ні кольори, ні багато обгортання слів, це просто "код", які букви він побачив. Його не потрібно повторно вводити і повторно перевіряти написання. Цей текст можна повторно передати та відформатувати, змінити розмір та переоформити. Людина просто щасливий, що не потрібно її повторно вводити. Це дуже м'який регульований і крихітний, це просто код для символів.
Програмне забезпечення для OCR, яке розміщує пробіли між усіма літерами, слід або переналаштувати, або перекинути. Якщо він розмістить пробіли там, оскільки вони існували, то так до нього знову існуватиме Пропустити, що я залишаю їх. Можливо, трохи реКернінгу (натискання літер разом) у програмі word / pdf, щоб вичавити його.
Форматований текст насичений колом, параграфи, загортання і може бути кольоровим або розміром, але змінити це легко. Цей вибір OCR корисний для того, щоб скинути його попередньо відформатований AS-IS і повторно роздрукувати / використовувати його чистою, як було . це ще дуже маленький розмір, без графіки чи зображень. ЯКЩО я використовую відформатований текст і хочу переформатувати його для іншого макета / форматування, я також міг би просто OCRed текст тільки (1), використовував текст RAW і швидко повторно перетікав, переформатував його та повторно розфарбували його.
Графіка - речі, які неможливо розпізнати, оскільки він не може розпізнати літери, це може бути вся сторінка або частини сторінки, як-от підпис, або деякі заплутані області або елементи зображення.
Цей сканований розділ можна використовувати з (1) або (2) для ручного розміщення графіки в переформатованих документах або просто вставки вставленої у форматизовану область. Якщо "графічний" або фоновий шум сторінки не потрібний, програмне забезпечення OCR налаштоване робити лише (1) або (2), що найкраще робить OCR. (1) з'ясуйте, що таке текст, і проігноруйте все інше. Або (2) зобразити текст та форматування та макет тексту.
Це (3) зображення не може перетворити його на "буфер копіювання" стандартних матеріалів для Windows, із сирим текстом або відформатованим текстом одночасно для звичайної крос-програми для копіювання програми. Це не просто текст або просто RTF, це не просто зображення, це безладний комбо. Це може бути вставка для копіювання "спеціальних даних".
Це може бути надруковано з програмного забезпечення для OCR, або "друк" у форматі PDF можна зробити з програмного забезпечення OCR (де воно все ще збирається). В основному буфер копіювання комп'ютера / програми може робити (1) текст, може (2) текст з форматуванням. Але робити зображення і Rich Text також, хіба що "змішування даних" для інших програм для його розпізнавання?
Вибравши текст ТІЛЬКИ у документі PDF, який містив текст, він перемістить текст у буфер вставки для копіювання. Ви можете вставити цей текст у що завгодно, і вже є, змінивши будь-який інтервал або абзаци та вкладки, можна зробити в програмі Wurd.
PDF може бути лише текстом, текстом із форматуванням, текстом і зображенням, і все це можна розділити за один швидкий хід, якщо він не захищений. Копіювати Вставити. Вставте лише текст (який ви вже змогли вставити в Word) у PDF та зробіть з простого тексту лише PDF.
ЯКЩО це контур тексту вектор (точки та криві)? Невидима, чия геніальна ідея: це було те, що було в наявності, коли робили такі прості речі? Деякий програміст, який не може залишити достатньо добре в спокої. Потрібно було б переосмислитись, це вже не сирий текстовий код. Не вдалося скопіювати вставити векторний текст / графіку як текстові символи.
За допомогою векторів у Photoshop ви можете його повторно стилізувати, згинати, щоб він знову підходив, це вектори, але не текстові символи, дуже важко перезапустити або переформатувати зараз. Розмір різко збільшується, якщо це вектори.
ЯКЩО це растризовано (зробило його Малюнком замість векторів), яке на зразок доопрацьовує контур, то не «обводить» контур вектора і не стилізує його. Знову перетворюючи його на "малюнок / графіку", замість тексту RTF або Vectors, блокується простота перебігу, повторне обгортання, переформатування. Розмір був би найбільшим розміром, коли він був розсіяний.
І у вас виникли проблеми з їх перенесенням у PDF або WORD, вони збираються повторно кодувати PDF, тому ви задаєте питання, і я дивлюся на це, думаючи:
- ти маєш це
- ви маєте головний контроль над цим, більше ніж потрібно
- ви змогли з нею що завгодно зробити
- як ви могли загубитися, ви освоїли його перетворення
- у вас є і малюнки, і текст
- ви змогли скопіювати вставити текст
- у вас це все є.
Це було відредаговано після публікації коментарів.