Неможливо скопіювати текст із файлу PDF


40

Для перегляду моєї текстової книги я використовую Foxit PDF Reader. Я хотів би скопіювати текст з pdf-файлу в документ-слово, але він мені не дозволить. Я можу вибрати тонкий текст, але можливість копіювання тексту недоступна. Я можу скопіювати текст з інших документів, але не з деяких. Чи є спосіб подолати цей захист у Windows?


Я бачу, що моя відповідь не працює для вас, тому ви опублікували щедрість. Якщо ви десь опублікуєте приклад такого pdf, я перегляну його.
harrymc

@harrymc: Зокрема, я шукав скопіювати значення з таблиці 6.15 acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith

@endolith: Дивіться мою нову відповідь.
harrymc

Відповіді:


29

Файл pdf, ймовірно, заблокований проти копіювання тексту. Нижче наведено два способи її розблокування:

  1. Якщо pdf не був заблокований проти друку, ви можете надрукувати його на віртуальному принтері PDF, щоб створити розблокований файл. Дивіться це:
    "Видаліть пароль та розблокуйте захищений PDF-файл, який дозволив друкувати, не знаючи секрету" .
  2. Якщо функцію друку заблоковано, див. Це:
    "Видаліть обмеження та розшифруйте файли PDF, захищені паролем, за допомогою PDF Unlocker" .

Ви можете побачити, чи PDF заблокований для копіювання. У меню Файл виберіть "Властивості", а на вкладці "Захист" вказано, чи дозволено копіювання вмісту.
Роб Седгвік

Спробував друкувати PDF. Надрукований файл не дозволяє виділити текст, здається, що він перетворив текст у зображення.
queezz

@queezz: PDF повинен містити зображення для початку.
harrymc

@harrymc Так, є зображення. Але текст також перетворюється на зображення. Опція Google Chrome добре працює на одному документі.
queezz

Ваше перше посилання посилається на primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe, це погано, він не працює, і, схоже, ви навіть навіть не архівували його на archive.org. З вашим другим посиланням все в порядку, але воно посилається на сайт обміну файлами dfiles.eu/files/7kiqyvswk, хоча файл у порядку, хоча, перевірено на virustotal. Але не так просто знайти, оскільки на цій сторінці mydigitallife є різні посилання. Тут написано: "PDF Unlocker - це безкоштовний, але зручний інтерфейс, який можна завантажити за посиланням тут (поточна версія 1.0.4)."
барлоп

25
  1. Відкрийте PDF у Google Chrome (перетягніть файл PDF у Chrome).
  2. Роздрукуйте певну сторінку у форматі PDF або просто відкрийте попередній перегляд друку.
  3. Тепер ви можете скопіювати текст з попереднього перегляду друку або виводу PDF. Але я не думаю, що ви могли скопіювати таблицю безпосередньо.

1
docs.google.com/open?id=0B0U0hneaP_FcYWprOFpEbTVqdkk Дивіться мій результат.
Khaleel

4
Це працює і для мене. Це найпростіший метод, який я бачу тут.
ендоліт

3
Абсолютно геніально. О, ви можете перетягнути файли на панель вкладок Chrome, щоб швидко їх відкрити, до речі.
іоно

Жоден із цих методів для мене не працював у Chrome 53. Чи, можливо, лазівку закрили?
Simon East

11

Мені вдалося створити версію PDF-файлу без DRM, використовуючи Ghostscript (який доступний для Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Отриманий файл stripped.pdfможна завантажити в Adobe Reader, і Reader із задоволенням дозволить вам скопіювати будь-яку частину його бажання. Це також зберігає більшу частину форматування таблиці.


Це геніально. Мій податковий бухгалтер відмовляється надати мені PDF-файли без DRM, а також пароль для видалення DRM. Це вирішує мою проблему. Відмінна робота!
kevinarpe

Якщо у PDF є пароль, обов'язково включіть -sPDFPasswordперемикач ( -sPDFPassword=password).
palswim

2

Мені вдалося скопіювати таблицю з вашого PDF-файлу успішно за допомогою Okular (для Linux; частина KDE). Для цього мені довелося зайти в налаштування Okular і зняти прапорець "Поважати обмеження DRM".

Я знаю, що це не дуже допомагає вам, оскільки ви працюєте з Windows, але це можливо, якщо у вас є зручна машина Linux або ви готові встановити її.

На жаль, це був звичайний текст без форматування, але, схоже, це не повинно бути занадто важким для відтворення таблиці. Результати моєї пригоди копіювання та вставки можна подивитися тут .


Ось для чого і VirtualBox. : DI також може копіювати звичайний текст без форматування, але, вибравши один стовпець за один раз, експортувати його досить просто.
ендоліт

Схоже, це найкраще для таблиць чисел, оскільки Okular дозволяє робити прямокутний підбір тексту та витягувати один стовпчик по порядку.
ендоліт

Для одиночних стовпців, мабуть, так. У цілій таблиці дивіться мою іншу відповідь .
Майкл Хемптон

Зауважте, що Okular може працювати в Windows. Насправді багато програмного забезпечення KDE може працювати на Windows .
Бакуріу

1

Ви можете використовувати GT Text - це програма, яка переводить зображення (також pdf-знімки = зображення) в текст. Ви можете вибрати область та скопіювати її у буфер обміну безкоштовно

Офіційна домашня сторінка - http://gttext.googlecode.com


1

якщо копія замурована, як тепер для вас сумнівається, то PDF "заблокований", його можна прочитати, але насправді не дозволяє вам копіювати / вставляти що-небудь із нього.

Цей веб-сайт розблокує PDF

https://smallpdf.com/unlock-pdf


0

Якщо ви просто шукаєте короткі фрагменти, ви часто можете вводити кілька слів у google всередині лапок і знаходити точну цитату, вже відскановану в іншому форматі або введену кимось іншим.

Ще один варіант - «Документ із фотографії» в додатку Android Docs для Android, який переведе текст через OCR. Це, звичайно, схильне до помилок.

Я б хотів, щоб функція блокування PDF ніколи не існувала. :(


0

Відповідь ендоліту:

Ваш PDF захищений від копіювання, але не захищений від друку.

Тому я надрукував одну сторінку, що містить таблицю 6.15, в інший PDF, який не захищений від копіювання, вибрав та скопіював таблицю, а потім вставив її у Word. На моє велике здивування, результатом пасти стало повне сміття.

Зараз я ще більше поглянув на цю таблицю і виявив дуже дивний результат: Це не таблиця!

Це фактично фотомонтаж невеликих фрагментів тексту, розміщених на сторінці так, щоб виглядати як таблиця. Але це не справжня таблиця.

Найкраще, що ви можете зробити, - або переписати всю справу як таблицю, або просто використовувати у своїй роботі скріншот цього зібраного тексту, схожого на таблицю.

Ось мій скріншот таблиці, взятий з мого створеного односторінкового PDF-документа :

зображення


Я спробував роздрукувати його за допомогою двох програм, але все, що я отримав, це порожня сторінка.
ендоліт

Використовуючи Foxit Reader , я розмістив себе на сторінці, після чого надрукував поточну сторінку на принтері pdf (я використовував Cute Pdf Writer ). Я спробую проаналізувати проблему з копіюванням таблиці сьогодні ввечері,
harrymc

Я спробував PrimoPDF та qvPDF (для яких використовується GhostScript)
endolith

Дивіться моє вище доповнення.
harrymc

... Я також завантажив сюди свій односторінковий pdf (час очікування 60 секунд).
harrymc

0

Інша можливість - Evince .

У Windows , здається, підтримується копіювання за замовчуванням.

В Linux копіювання можна ввімкнути, перевіривши override_restrictionsналаштування, якщо його ще немає, дотримуючись цих вказівок ( dconf-editor/org/gnome/evinceoverride_restrictions).


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.