Деякі файли PDF створюють сміття (" mojibake ") під час копіювання тексту (навіть якщо вони здаються нормальними). Це робить неможливим їх пошук (усе, що ви шукаєте, не відповідає сміттям).
Хтось має легке вирішення?
Приклади:
- Посібник TEAC TV EU2816STF ( видає вище проблеми в Adobe Reader як для Windows, так і для Mac, але добре працює в Preview на Mac)
- Посібник Leadtek Winfast PVR2 (FTP-посилання; також є проблеми з попереднім переглядом на Mac)
- Посібник зі тюнера Swann TV (посилання FTP; також є проблеми з попереднім переглядом на Mac)
- Ліцензійний договір Phonedisc (від вже неіснуючої DTMS )
- Щоквартальний огляд фонду Macquarie IFP
- Буклет BAN-TACS для малого бізнесу (заархівована версія)
- Листівка Easterfest 2004 (також з архіву)
Я використовую Adobe Reader (остання версія) для Windows - можливо, альтернативний переглядач може допомогти? Я шукаю безкоштовне рішення для Windows. З відкритим кодом було б ще краще.
Редагувати: Документи для інструменту "Багатовалентний текст для витягування" мають хороший підсумок, чому все може піти не так, зокрема: (цитований документ востаннє змінено січень 2006 р.)
- У тексті може не бути відображення Unicode. Шрифти PDF Type 3 часто не мають, а у TeX DVI є символи, у яких немає еквівалентів Unicode.
- Кодування Unicode може бути помилковим. Відкриття Office відображає деякі символи в той же Unicode, що призводить до випадання та подвоєння букв на апараті.
Я думаю, що в цих випадках остаточним рішенням буде OCR кожен гліф шрифтом, щоб зрозуміти, яким символом він є насправді. Зауважте, що це було б простіше, ніж OCRing шумного сканованого документа, оскільки точна форма гліфа доступна (при нескінченній роздільній здатності, оскільки це "векторне" зображення).
clipbrd.exe
(див. Mydigitallife.info/2008/11/06/… ), ви можете побачити, що знаходиться в буфері обміну. Що це дає тобі?