Фокус Javascript? Як scribd ускладнює навіть копіювання та вставлення тексту

19

Останнім часом я бачив, що scribd дуже ускладнює користувачам (безкоштовним користувачам) перегляд документа, розміщеного на їхньому сайті. Немає можливості шукати в документі, не кажучи вже про те, щоб завантажити той самий.

Використовуючи javascript, вони завантажують сторінки за запитом у браузері, і тому функція "зберегти як" браузера не дуже допомагає.

На моє здивування, я побачив, що навіть копіювання / вставлення тексту копіює безглуздість до буфера обміну! Щоб перевірити, що було не так, я вимкнув javascript у браузері, а потім знову завантажив той самий документ. Вуала, я бачив хитрість. Отже, схоже, що javascript від scribd якось розшифровує невдалий текст і потім відображає його у браузері.

Тепер моє запитання, навіть після включення javascript і тексту належним чином відображається у браузері, якщо я загляну на об'єкти DOM, що відповідають обраному тексту, я все ще бачу химерний текст.

Отже, зараз я розгублений. Текст відображається нормально для користувача, але об'єкти DOM все ще містять хитрість. Отже, питання полягає в тому, який тип гачків / код JavaScript використовує сайт, щоб мати змогу зберегти безглуздість в об'єктах DOM і все-таки зробити декодований текст?

Чи є спосіб отримати доступ до розшифрованого тексту? Мій намір полягає не в тому, щоб розробити інженерний алгоритм для декодування, а знайти місце, де зберігається розшифрований текст?

Приклад документа:

http://www.scribd.com/doc/143886351/OCP-Upgrade-to-Oracle-Database-12c-Student-Guide-vol-1-Exam-1Z0-060

Подивіться, що станеться при включенні / вимкненні Javascript!

javascript

— user2497064
джерело

Його різновид проста. Вони створили переглядач PDF в JavaScript. Mozilla щось зробив із Firefox. Оскільки ваш переглядач PDF фактично не використовується для відображення вмісту, він може контролювати майже кожен аспект перегляду.

— Ramhound

15

Подивіться на font-familyдля span. Вони використовують нестандартний шрифт (у цьому випадку ff6).

Вони повинні зробити це, щоб більше документів PDF відображалося правильно. Як і в документах PDF, немає вимоги, що текст у документі повинен використовувати стандартний набір символів. Для цього потрібно використовувати лише той, який має код, який відображає гліфи у вбудованому шрифті.

— Ден Д.
джерело

10

Якщо ви подивитеся на текст, що відображається, порівняно з "гнушком", то видно, що деякі букви однакові, а деякі букви замінені. Наприклад, "Mltmrprfsm Jblbemr" - це "Менеджер підприємств". Враховуючи достатньо тексту, ви повинні мати можливість скласти таблицю швидкого перекладу. Вже ми знаємо, що M перекладається на E , L -> N , T , R і P - зрозумілі, F -> R і т. Д. За умови деякого часу, детективної роботи та скромних навичок програмування можна було перекласти весь документ.

Звичайно, немає гарантії, що наступний документ буде використовувати той самий ff6шрифт, який згадував Дан Д. , тому захоплення цього шрифту для місцевого використання має стати вашим наступним кроком, якщо ви хочете зберегти текст для подальшого.

— MattDMo
джерело

0

Ви можете спробувати зробити знімок екрана за допомогою інструмента для обрізання веб-переглядача, а потім скористатись будь-яким із доступних веб-сайтів для ocr для його перетворення в текст. Це повинно вас розібратися.

— guy841185
джерело