шукати PDF-файли з нестандартними кодуваннями символів

19

Деякі файли PDF створюють сміття (" mojibake ") під час копіювання тексту (навіть якщо вони здаються нормальними). Це робить неможливим їх пошук (усе, що ви шукаєте, не відповідає сміттям).

Хтось має легке вирішення?

Приклади:

Посібник TEAC TV EU2816STF ( видає вище проблеми в Adobe Reader як для Windows, так і для Mac, але добре працює в Preview на Mac)
Посібник Leadtek Winfast PVR2 (FTP-посилання; також є проблеми з попереднім переглядом на Mac)
Посібник зі тюнера Swann TV (посилання FTP; також є проблеми з попереднім переглядом на Mac)
Ліцензійний договір Phonedisc (від вже неіснуючої DTMS )
Щоквартальний огляд фонду Macquarie IFP
Буклет BAN-TACS для малого бізнесу (заархівована версія)
Листівка Easterfest 2004 (також з архіву)

Я використовую Adobe Reader (остання версія) для Windows - можливо, альтернативний переглядач може допомогти? Я шукаю безкоштовне рішення для Windows. З відкритим кодом було б ще краще.

Редагувати: Документи для інструменту "Багатовалентний текст для витягування" мають хороший підсумок, чому все може піти не так, зокрема: (цитований документ востаннє змінено січень 2006 р.)

У тексті може не бути відображення Unicode. Шрифти PDF Type 3 часто не мають, а у TeX DVI є символи, у яких немає еквівалентів Unicode.

Кодування Unicode може бути помилковим. Відкриття Office відображає деякі символи в той же Unicode, що призводить до випадання та подвоєння букв на апараті.

Я думаю, що в цих випадках остаточним рішенням буде OCR кожен гліф шрифтом, щоб зрозуміти, яким символом він є насправді. Зауважте, що це було б простіше, ніж OCRing шумного сканованого документа, оскільки точна форма гліфа доступна (при нескінченній роздільній здатності, оскільки це "векторне" зображення).

pdf search character-encoding

— Х'ю Аллен
джерело

Використовуючи clipbrd.exe(див. Mydigitallife.info/2008/11/06/… ), ви можете побачити, що знаходиться в буфері обміну. Що це дає тобі?

— Ар'ян

@ Арджан ван Бентем: він дає мені саме той самий сміття, який я отримую під час вставки в Блокнот.

— Х'ю Аллен

Будь-які деталі щодо формату? Я на Mac, але я припускаю, що Windows скаже вам, якщо щось є зображенням або текстом, а потім для тексту, можливо, також виявляється щось про кодування?

— Ар'ян

На прикладі телевізійного посібника: та сама проблема в Adobe Reader 8.1.2 на Mac, але немає проблем із використанням програми Preview Mac для копіювання чи пошуку тексту. Властивості документа показують "Encoding: Custom" для шрифтів (див. Img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Інші документи в форматі PDF показати такі речі , як «Кодування: Ансі» або «Roman» і не мають ніяких проблем в Adobe Reader на Mac (як adobe.com/education/pdf/type_primer.pdf врожайності img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png ).

— Ар'ян

1

Крім того, pdftextonline.com не може отримати текст із посібника з телебачення, а також із документа Phonedisc (не намагався інших). Але відправка в Gmail , а потім перегляду , як HTML робить роботу для ручного (так само , як зображення не має ніяких проблем з цим документом) TV ...

— Арьян

3

Foxit Reader , можливо?

Для чого це коштує, я тільки що перевірив PDF ви пов'язані з з Safari 4.0.4 на Mac OS X 10.6.2 і поки є деякі Engrish , то PDF це робить бездоганно без екранного «сміття». Можливо, у вас виникають проблеми Unicode (більш поширені в Windows, ніж Mac OS)?

— Олексій
джерело

Сміття немає на екрані - він знаходиться в буфері обміну, коли я копіюю якийсь текст. Що з вами відбувається, коли ви намагаєтесь?

— Х'ю Аллен

@Hugh: Особливості 􏰃 Це кольоровий телевізор з дистанційним керуванням. 􏰃 100 програм з УКХ, УВЧ діапазонів або кабельних каналів можуть бути попередньо встановлені. 􏰃 Тут можна налаштувати кабельні канали. 􏰃 Керувати телевізором дуже легко завдяки системі, керованій меню. 􏰃 У нього є три розетки Euroconnector для зовнішніх пристроїв (таких як комп’ютер, відео, відеоігри, аудіо набір тощо)

— Alex

@Hugh: Кулі не копіюються належним чином, але все інше. З яким розділом / сторінкою / абзацом конкретно у вас виникли проблеми, і я спробую це?

— Алекс

Все це. Я використовую Adobe Reader для Windows. Я щойно оновив до останньої версії, яка не допомогла. +1 спасибі за інформацію. Я думаю, що в Adobe Reader є помилка, яка не поділяється еквівалентом OSX.

— Х'ю Аллен

4

Я спробував Foxit Reader, і це те саме питання. Його інсталятор також дуже настирливий, бажаючи встановити панель інструментів, змінити домашню сторінку тощо :(

— Х'ю Аллен

3

Найпростіший спосіб обійти це - відкрити файл в останній версії Google Chrome із вбудованим плагіном для читання PDF . Потім ви можете скористатися функцією пошуку Chrome для пошуку тексту, а копіювальна вставка працює правильно.

— акаталепт
джерело

2

Для прикладу телевізійного посібника : та сама проблема в Adobe Reader 8.1.2 на Mac, але немає проблем із використанням програми Preview Mac для копіювання чи пошуку тексту. Крім того, надсилаючи його до облікового запису Gmail, а потім вибираючи "Перегляд", а потім "Звичайний HTML", розкривається текст. Але Adobe Reader це не любить.

Властивості документа показують "Кодування: Спеціальні" для шрифтів. Інший документ показує такі речі, як "Кодування: Ansi" або "Roman", і не має жодних проблем ні в Preview, ні в Adobe Reader на Mac:

введіть тут опис зображення

Однак і приклади Leadtek і Swann створюють проблеми і в Preview на Mac, і в Gmail, і обидва показують "Encoding: Identity-H". Тест Phonedisc також не вдається, з "Encoding: Custom".

Заплутаний і не послідовний, але на якомусь форумі Adobe я знайшов наступне пояснення для ще одного прикладу, який показує "Кодування: Спеціальні" (моє наголос):

Після огляду всередині PDF виявляється, що ніякої корисної інформації про кодування немає (ні в PDF, ні у вбудованих шрифтових даних), щоб визначити значення символів / гліфів, що відображаються на сторінках документа.

Фактично всі шрифти вбудовані, але таким чином, що вся інформація про кодування була видалена. Це типовий приклад PDF, який синтаксично повністю відповідає специфікації PDF, але де важлива інформація про значення тексту в ньому була викинута під час виготовлення PDF. Наскільки я можу сказати, відновити інформацію про кодування буде дуже важко.

Це не пояснює, чому Mac Preview (і, мабуть, Infix також) може обробляти деякі приклади, коли Adobe Reader виходить з ладу, навіть із "Encoding: Custom". Можливо, у Preview немає проблем, коли точний шрифт присутній на самому комп’ютері? Чи, можливо, це просто відгадування кодування, яке, здається, працює для деяких, але не для всіх документів?

Що б це не викликало: якщо проїзд через Документи Google або Gmail не працює, можливо, найпростіший (але далеко не простий) спосіб вирішити, як зберегти як TIFF, а потім зробити OCR . Такі сервіси, як Evernote, можуть робити це з льоту (це робить OCR на зображеннях; я сумніваюся, це буде робити OCR у форматі PDF).

— Арджан
джерело

-1

Для мене не вдалося завантажити файл 1, файл 2, який я міг відкрити за допомогою xpdf, швидкого та відкритого джерела перегляду PDF-файлів. Я думаю, він не може впоратися з формами, але для чистого тексту і графіки я вважаю за краще його швидкий час запуску.

— користувач невідомий
джерело

1

Питання полягало не в тому, щоб "відкрити" PDF-файли або про "відкриття з швидким часом запуску". Натомість мова йшла про те, що не вдалося скопіювати фрагменти тексту з винесених сторінок. Тож ваша відповідь, ймовірно, є вдалою, але не підходить до цього питання.

— Курт Пфайфл

-2

На жаль, це не може допомогти. PDF-документи фактично не містять букв, але вони містять форми літер. Іншими словами, замість того, щоб прочитати лист і намалювати його на екрані Adobe Reader, як будь-який інший додаток для читання PDF, просто намалював би векторну графіку, закодовану у файлі.

Однак деякі зчитувачі PDF поставляються із програмним забезпеченням, яке дозволяє проаналізувати форму та відновити текст за допомогою розпізнавання тексту. Це працює так само, як якщо б ви сканували папір з друкованим текстом і використовували програмне забезпечення, наприклад ABBYY FineReader, щоб перетворити його назад в текст, але завдяки нескінченно високій якості векторних малюнків результати зазвичай набагато кращі, ніж для сканованих документів.

Деякі документи можна захистити від перетворення в текст, обдуривши Adobe Reader. Наприклад, букви можуть бути намальовані в декількох формах, що перекриваються, таким чином, що візуально вони все одно будуть виглядати однаково, тоді як програмне забезпечення для розпізнавання тексту не зможе розпізнати текст. Ваш документ є прикладом такого захисту.

Одним із способів було б надрукувати документ на зображення і дозволити програмі для розпізнавання тексту розпізнати його. Більш висока роздільна здатність зображення покращить якість. Однак цей метод не дуже зручний.

— Сергій Белозуров
джерело

2

PDF-документи фактично не містять жодних листів - це неправда для більшості несканованих документів; дивіться en.wikipedia.org/wiki/Portable_Document_Format#Text

— Ар'ян

Дякую. Цікава інформація. Я завжди хоч про те, що в PDF немає інформації про текст. Тим не менш, схоже, що в документі, наданому Олександром, текст не вбудований. Або також можливо, що шрифт, який використовується там, має дивне кодування символів, тобто вони не відповідають типовому кодуванню ASCII.

— Сергій Белозеров

2

Як я міг скопіювати текст з PDF, якби він був просто формами? Ви частково маєте рацію - це не растерізовано у PDF (крім випадків, коли вони відскановані), але текстові дані включені. Однак шрифти (як правило) також вбудовуються, дозволяючи включеному тексту вектором бути візуалізованим.

— Alex Alex