Під час вставлення копій у PDF є скребковий текст

23

Я намагаюся скопіювати та вставити текст з PDF-файлу.

Однак, кожного разу, коли я вставляю оригінальний текст, це величезна безлад з натертими символами. Текст виглядає наступним чином (це лише один невеликий витяг):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14,

Я спробував це як в Adobe, так і в Foxit читачах PDF. Я зробив "Зберегти як текст" в Adobe Reader, і результуючий текстовий файл - це той самий скреблений текст.

Будь-які ідеї, як я можу витягнути цей текст без накиду? (Окрім ручного введення тексту ... є багато тексту для вилучення.)

pdf adobe-reader foxit-reader

— нгм
джерело

Спробуйте кілька утиліт зчитування екрана (який працює з jpeg, зробіть екран друку і там ви перейдете) або ось інший спосіб . (Просто "здогадка", не кусайте мене за це. Я тоді використовував перший шлях. Сподіваюся, є більш зручні способи).

— Apache

Подібне запитання: superuser.com/questions/119393/…

— Х'ю Аллен

Я також можу підтвердити цю проблему з OS X, принаймні, 10.8.2. Я витратив трохи часу, переглядаючи структуру файлів PDF, але, на жаль, не бачу жодного способу відновити пошкодження. "PreFlight" Acrobat Pro повідомляє про проблеми з файлом, перевіряючи його на стандарт PDF / A, а звіт "Інвентаризація" показує, що гліфи відображаються проти явно неправильних символів Unicode. Я підняв звіт про помилку в Apple - ID 12655651. Я повідомлю про це, якщо / коли я отримаю оновлення.

— КенД

Може бути корисним superuser.com/a/481510/153937

— Ankit

11

Найпростіший спосіб обійти це - відкрити файл в останній версії Google Chrome із вбудованим плагіном для читання PDF . Тоді ви можете скористатися функцією пошуку Chrome для пошуку тексту, а копіювальна вставка працює правильно.

Я хотів би проголосувати коментар pipitas щодо відповіді Шикі, але у мене немає достовірностей :( Проблемою може бути власне кодування шрифту, а не шифрування . У Acrobat натисніть Файл -> Властивості, а потім перейдіть на вкладку Шрифти, щоб побачити кодування. та вкладку Безпека, щоб побачити, чи вона зашифрована.

— акаталепт
джерело

Дійсно, власна кодування шрифтів була винуватцем для мене. Однак Chrome не був рішенням. Я частково вирішив проблему за допомогою Ghostscript, що відновлює PDF з PS (мені пощастило мати джерело PS). Будь-які групи символів, до яких LaTeX застосовує лігатури (наприклад, ff, c, fi тощо), не відображаються в скопійованому тексті PDF, що вимагає певного редагування під час копіювання / вставки.

— Фурманатор

1

Та ж проблема з хромом

— JinSnow

4

Я виявив цю проблему з створеними нами PDF-файлами, і вважаю, що я відшукав джерело проблеми: використовуючи попередній перегляд Mac OS X для зменшення розміру файлу PDF.

Я створив кілька кварцових фільтрів за допомогою програми Colorsync Utility для стиснення зображень у форматі PDF, щоб зменшити загальний розмір файлів PDF із зображеннями. Такі, як описано тут: http://www.macosxhints.com/article.php?story=20031106133852693

Я виявив, що я можу легко копіювати та вставляти текст з оригінального (нестисненого) PDF-файлу, але після запуску цього PDF-файлу через створений я створений фільтр зменшення розміру файлу отриманий стислий PDF не копіює вставку чітко (виходить схожим рядки, які ви розмістили).

Однак, використовуючи той самий оригінальний PDF через документ «Документ Adobe Acrobat Pro»> «Зменшити розмір файлу», отриманий стислий PDF може успішно копіювати та вставляти текст.

Отже, це не зовсім допомагає у вашому випадку, якщо припустити, що ваш PDF-файл отриманий з іншого місця, і ви не можете дістатись до оригінальної версії, якщо він був справді певним чином стиснутий. Але це може бути поясненням - що файл якось налаштовували, намагаючись зменшити розмір файлу.

Це може бути корисно для творців вмісту, які зіткнулися з подібними проблемами копіювання та вставлення тексту з PDF - будьте обережні, використовуючи кварцові фільтри OS X, щоб зменшити ваші PDF-файли!

--edit-- Я також помітив цю проблему при поєднанні PDF-файлів із попереднім переглядом. Дві вихідні PDF-файли можна скопіювати та вклеїти штрафом, але, перетягуючи сторінку з одного файлу в інший файл та зберігаючи комбінований PDF, текст у комбінованому документі неможливо скопіювати / вставити. Це два документи, створені одночасно з Filemaker Pro 11 на Mac - я не можу уявити, що вони мали б різні кодування або щось подібне.

— Даниїла
джерело

Я отримав кілька файлів у форматі PDF від користувача Mac OS. Вибір нормально, але копіювання та вставка просто дасть вам сміття. Спробуйте купу PDF в перетворювачі слів, включаючи googledoc, Adobe зберегти як текст, і всі вони надають шалений текст.

— тигр

Я підозрюю, що винуватцем скорочення файлів у форматі PDF X OS. Хтось там знає про будь-який спосіб «скасувати» таку операцію? Спасибі!

— тигр

Я надрукував pdf-файл на декількох (віртуальних) принтерах і отримав надуті PDF-файли розміром 4 рази. Надрукований файл очевидним є зображенням, не можна зробити вибір тексту, в той час як оригінал можна вибрати (хоч і поперечно).

— тигр

4

Є ще один дуже простий спосіб вирішити проблему :)

Просто надрукуйте документ за допомогою принтера CutePdf, Adobe 2 Pdf або будь-якого подібного матеріалу. Суть полягає в тому, що вам потрібно надрукувати у форматі pdf.

У багатьох випадках проблема буде легко усунути.

— Нік Ользанскі
джерело

2

Рішення, яке працювало для мене:

Завантажте документ на Google Диск / Документи
Google імпортуватиме його (станом на 2013 рік) у форматі PDF
Відкрийте подання PDF та виберіть Файл > Відкрити за допомогою > Документи Google
Експортувати документ знадобиться близько хвилини

Результати не були ідеальними, але я отримав 80% шляху та надав мені достатньо тексту, щоб мені не довелося все переписувати!

— Гевін Міллер
джерело

2

ВИРІШЕНО: (працював для мене в Windows 8, Acrobat XI, Office 2010)

Варіант 1:

Друк з Acrobat за допомогою "Microsoft XPS Document Writer" Вихід: "Ваше ім'я файлу.oxps"
Відкрийте "... oxps" за допомогою засобу перегляду XPS. * (див. посилання для завантаження в коментарях нижче)
Роздрукуйте у PDF (Acrobat PDF або CutePDF), використовуючи найвищу роздільну здатність (600 DPI).
Відкрийте за допомогою Acrobat і скористайтеся опцією OCR (Searchable Image (Exact)).

БІНГО!

Коментарі:

Використання зображення з найвищою роздільною здатністю та пошуковим зображенням (точно) збереже ваш текст, не втрачаючи його чистого вигляду. Низька роздільна здатність зробить ваш текст читабельним, але хитро виглядає.
Завантажте Microsoft XPS (файли): http://www.microsoft.com/en-us/download/details.aspx?id=11816
Якщо ви не знаєте, що таке OCR, або де знайти зображення, яке шукається (точно), або як надрукувати за допомогою "Microsoft XPS Document Writer", БУДЬ ЛАСКА, Google самостійно, щоб отримати найкращий досвід.

* Завантажуйте лише якщо у вас не встановлено XPS.

Варіант 2:

Зробіть подібне, але збережіть як зображення (png, tiff, ...), тоді вам доведеться об’єднати всі сторінки назад в один файл "PDF".

— user210118
джерело

1

Кроки 1,2 та 3 здаються довгими, коли ви можете просто перейти до кроку 3 Друк у PDF. (Напр. Зсередини вашого читача PDF). Не потрібно виїжджати через XPS.

— Геннес

@Hennes Виконання кроку 4 призводить до помилкиAcrobat could not perform OCR on this page because: This page contains renderable text

— Фурманатор

"текст, який можна передати" звучить як щось, що ще потрібно намалювати (видати). Можливо, вже зроблено так і зберігається як OCR-сумісна растрова карта, якщо ви переходите через XPS. Але це лише здогадки.

— Геннес

1

Існує ризик, що інформація взагалі не буде доступна. PDF-документи - це по суті один документ, що накладається на інший, один простий текст, інший малюнок. Коли ви копіюєте та вставляєте з документа, ви позначаєте текст під час перегляду картинки, але те, що скопійовано у буфер обміну, - це відповідна частина текстової частини.

Залежно від способу створення документа, якість та доступність текстової частини може сильно відрізнятися. Якщо ви зберігаєте документ із текстовим процесором у форматі PDF, використовуючи Acrobat, Word, драйвер принтера PDF або будь-який інший метод, якість, як правило, буде відмінною, оскільки текстовий файл можна створити з тексту оригіналу. Деякі спеціальні символи можуть перекручуватися, але звичайний текст, як правило, добре.

Якщо документ створений із відсканованого зображення, проте текстова частина, як правило, створюється обробкою зображення OCR, що може давати досить сумні результати, особливо якщо оригінал є менш оптимальним для цієї мети.

Неправильна програма, що використовується для створення PDF-файлу, або неправильні налаштування, також можуть призвести до того, що текстова частина стане повністю пошкодженою, як це, можливо, деякі види шифрування працюватимуть у файлі після його створення.

Суть полягає в тому, що якщо текстова частина документа справді погана, немає можливості покращити її. Вашим найкращим ставкою буде повністю видалити текстову частину і запропонувати програмі повторити процес OCR. Я думаю, що це можливо зробити в Acrobat, але я не зовсім впевнений.

— Еміль
джерело

1

Однією з можливих причин цього могло бути те, що вбудовування шрифту у PDF використовувалось власне кодування, яке неправильно застосовується під час копіювання тексту з PDF.

Ви можете застосовувати різні методи, щоб вберегти себе від введення вручну всього вмісту.

Чи намагалися ви витягнути текст за допомогою одного з інструментів 'pdftotext.exe', який можна завантажити по всій мережі? (Я рекомендую той, який включений у ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
В останній версії Acrobat Reader є опція "Зберегти як текст ..." . Це не використовує "copy'n'paste" (який дав вам накреслений текст), але, ймовірно, використовує ті ж програмні програми, які використовуються для візуалізації тексту на екрані, і може призвести до цього більш корисних результатів.
Якщо "2." не працює, і якщо у вас є доступ до Acrobat Professional: спробуйте перезавантажити PDF за допомогою одного з профілів Distiller, що вбудовує шрифт.
Якщо "3." не працює, незважаючи на те, що у вас є доступ до Acrobat Professional: спробуйте перезавантажити PDF-файл, але цього разу слід скористатися опцією "друкувати як зображення" (доступно за допомогою кнопки "Додатково" в лівому нижньому куті основного друку діалог). Переконайтеся, що ви використовуєте 600dpi (хоча це може створити величезний файл). Отриманий PDF файл ви знову відкриєте в Acrobat Pro. Тепер застосуйте до файлу алгоритм «OCR» Acrobat, який призведе до вбудованого тексту (не використовується для візуалізації на екрані в Reader, але використовується для пошуку та виділення рядків). Тепер ви можете спробувати витягнути текст з цього PDF, використовуючи будь-який з вищеописаних методів.

— Курт Пфайфл
джерело

Для мене, використання Acrobat Pro XI для повторного друку до PDF - але з пунктом "Друк як зображення" (600 точок на дюйм) у кнопці " Додатково ..." у діалоговому вікні " Друк ..." - було фокусом. Тоді ви зможете нарешті правильно зареєструвати результат . Жодне з інших рішень, згаданих на цій сторінці, не працювало. Примітка: для великого документа це може зайняти деякий час, і результат PDF може бути досить величезним.

— Гленн Слейден

@GlennSlayden: Радий, що моя порада спрацювала для вас ... Чого не вистачало в тому, що ви думали, що він все ще не заслуговує грошей?

— Курт Пфайфл

Гм, я зробив підтримку. Для мене це все ще відображається як "1". Моя єдина скарга - це те, що ваша відповідь була внизу, і мені знадобилося деякий час, щоб знайти її (не ваша вина ...)

— Гленн Слейден

Гаразд, @GlennSlayden, тоді це оновлення, мабуть, було давно (задовго до Вашого коментаря вище).

— Курт Пфайфл

Ні, я підтримав "12 годин тому", коли я написав коментар ... Я все ще бачу синю стрілку, яка (я вважаю) означає, що мій голос - це (той) голос, який наразі зареєстрований. І я пам'ятаю, що це було "0", перш ніж я підняв голосування минулої ночі.

— Гленн Слейден

1

Один з моїх користувачів якраз повідомив про ту саму проблему (PDF створено за допомогою Distiller для Windows), що скопійований текст є лише текстовим текстом, і він не міг шукати всередині документа. Я спробував на своєму Mac і не знайшов жодної проблеми. Виявилося, що я використовував програму Apple Preview, тоді як він використовував Adobe Reader на своїй машині Windows. Тоді я спробував Adobe Reader на своєму Mac, зіткнувся з тим же ефектом. Для мене це виглядає так:

Adobe Reader копіює та шукає збережений текст.
Apple Preview буде копіювати та шукати після застосування вектора кодування.

Я не можу цього сказати точно, але це пояснило б моє спостереження. І це дійсно дозволить зробити всі види кодування при збереженні комбінованих / зменшених файлів, як описано в іншому дописі тут: за допомогою попереднього перегляду ви все ще можете вийти з тексту.

Спочатку я подумав, що було б більш логічним кодувати вбудований підмножина шрифту як суміжні записи, а не залишати отвори всередині та використовувати початкове розташування символів. Але тоді я зрозумів, що, використовуючи вектор кодування для підмножини шрифту з оригінальними записами, символи, які часто використовуються, можуть мати менше бітів, встановлених на 1 у своєму байті, і можуть бути стисліше кращим чином (це може знизити ентрофію загальний текст таким чином).

— Реуті
джерело

1

Завантаження в документи Google і використовуючи параметр Перегляд> Простий HTML , текст дозволяє скопіювати текст, що коректується, приблизно до 80%.

Цей потік із прийнятою відповіддю на те саме питання пояснює це робочим прикладом.

— об. Текічі
джерело

1

Я не пробував параметр Документи Google, оскільки він досі не підтримується в моєму кабінеті. Однак, надрукувавши файл у "ScanSoft PDF Create!" з "Acrobat 9" (друкує весь файл на зображення) та відкриття надрукованого файлу в "Nuance PDF Converter" (це підказало мені, якщо я хочу зробити файл зображення пошуковим і редагованим, що я вибрав), мені вдалося мати документ Word, з якого я легко скопіювати та вставити. Це не ідеально, хоча з точністю близько 80-90%. Але ей, у вас все ще є оригінальний PDF-файл для порівняння та компенсації тих частин, які просто неможливо виправити. Економить час від набору тексту. Мій 2с.

— Джорі
джерело

0

Я створив кілька текстових PDF-файлів, що редагуються, зі старою версією Scansoft PDF Converter для Windows XP, а потім об'єднав сторінки в програмі попереднього перегляду Mac. На кожній з окремих сторінок я міг правильно шукати, копіювати та експортувати текст із Adobe Reader на Mac. У поєднанні за допомогою попереднього перегляду та збереження у вигляді одного файлу всі добре виглядали на екрані, але лише кілька уривків можна було шукати / експортувати правильно. Ця проблема привела мене сюди.

Пости тут дали мені кілька хороших вказівників (дякую!). Я переглянув властивості файлів для шрифтів. Файли однієї сторінки з Win XP (де все добре) сказали, що кодування було ANSI. Файл, об’єднаний у Preview (де скопійований текст, накреслений), показав кодування для більшості шрифтів як "Вбудований", а декілька - як "Roman".

Вирішення моєї проблеми весь час було в мене під носом - сама програма Scansoft може комбінувати файли. Коли я використовував комбайнер Scansoft і відкривав файл на Mac, усі шрифти відображалися як ANSI-закодовані, а весь текст експортувався / копіювався ідеально. Чому на Землі я в першу чергу не поєднав їх у PDF Converter, не знаю. Спасибі, плакати!

Те саме стосується відкриття файлів у системі Linux.

Я знаю, це не пояснює проблеми, що стосуються лише Windows - хіба що PDF не має подібного змішаного походження?

— Jimbo
джерело