"Переглянути джерело" - еквівалент для документів Word?


11

Іноді документи Word здаються більш-менш перервами, як правило, коли макет стає досить складним і документ кілька разів змінюється руками та / або версіями. Симптомами можуть бути те, що нічого не відбувається при натисканні клавіш Backspaceабо Enterв певному місці документа, де воно справді повинно працювати, або що форматування, здається, застосовується і скидається більш-менш випадковим чином. Я думаю, що ми всі були там.

Часто може бути дуже важко точно зрозуміти, що не так, оскільки те, що відбувається під капотом у Word, є досить непрозорим. Ви можете мати документ, який виглядає порожнім, але насправді базовий стан щодо форматування тощо може бути досить складним.

У цих випадках було б корисно зазирнути у вихідний код за тим, що відображається на сторінці; наприклад, як у веб-переглядачі можна було робити джерело перегляду , і в ідеалі мати можливість редагувати безпосередньо у вихідному коді, як, наприклад, як ви працювали під час використання Latex. Чи є команда або утиліта для перегляду джерел для документів Word Word?

Я здогадуюсь, що такої команди немає, інакше я б про неї чув. Якщо це так, чи має хто-небудь хороший підхід, коли справа доходить до того, щоб зрозуміти набридливе "приховане форматування" в документі Word ?

Я підозрюю, що можуть бути певні відмінності у форматах .doc та .docx; Мене цікавлять обидва випадки.

Відповіді:


11

Якщо форматування - це те, що вас в першу чергу цікавить, то Word має хороший характер для перевірки всіх типів форматування, застосованих до тексту та об'єктів, що називаються Виявити форматування . У Word 2007 та 2010 ярлик для цієї панелі Shift+ F1.

введіть тут опис зображення

В іншому випадку, якщо ви шукаєте ще глибше розуміння формату документа, тоді ви можете подивитися на файли XML для DOCX.

  1. Знайдіть документ DOCX на диску.
  2. Змініть розширення документа з .docx на .zip.
  3. Двічі клацніть файл і відкрийте його в диспетчері архівів за замовчуванням.
  4. Перейдіть до папки "Word" в програмі zip та відкрийте Document.xml . Це код, що становить основну частину вмісту документа, хоча інші файли також використовуються іншими способами, тобто для стилів або інформації про шрифт.

Вам точно знадобиться гідний редактор XML просто для перегляду даних, і навіть тоді він досить складний і для великого документа буде дуже-дуже довго.

Що стосується DOC, то немає простого способу "переглянути джерело", оскільки це двійковий файл, що складається з окремих потоків, і тому немає простого способу перегляду вмісту.


Це зовсім зручно, я цього не знав. Прикро, що ви не можете зробити те ж саме для .doc-файлів, оскільки саме це досі використовує моя компанія. Дякую за пояснення, хоча!
Godsmith

1
@Godsmith Ви можете зберегти DOC як DOCX за допомогою нової версії Word, а потім повернутися до DOC після внесення будь-яких змін. У цьому процесі є втрата формату, тому будьте обережні, але ви можете виявити, що ви можете внести зміни або виправити проблеми у своїх типах DOC, зробивши це в DOCX.
ThisClark

Ви також можете зберегти будь-які файли безпосередньо у форматі HTML у MS Word. Крім того, ви можете зберегти як RTF і відкрити файл RTF у вигляді тексту
phuclv

3

Я думаю, що формат .doc досить важкий, тому я не можу вам тут допомогти. Однак .docx - це фактично zip-файл із усіма деталями, що зберігаються у XML-файлах. Таким чином, перейменуйте файл у .zip та подивіться на джерело!


0

Якщо мова йде про двійковий формат, як * .doc, то справи складніші. Ви можете використовувати mso-самоскид LibreOffice . Просто клонуйте рішення до локальної машини та запустіть

python doc-dump.py \path\to\file.doc >output.xml

Тепер усі речі у двійковому файлі будуть перетворені в xml у точному форматі, описаному у форматі бінарного файлу Word (.doc)

Також є WordFileDump, який простіший, але не такий потужний, як mso-самоскид

На жаль, вони призначені лише для аналізу структури, і немає жодного інструменту, щоб зібрати вихідний файл XML у файл * .doc, тож, коли ви знайдете першопричину, вам доведеться використовувати Word для редагування. Тому було б простіше перетворитись на * .docx, вивчити файл * .docx, а потім перетворити назад у * .doc, якщо потрібно

Або ви також можете зберегти файл у форматі rtf, який є "читабельним для людей" текстовим файлом замість офісного xml. Крім того, збережіть файл слова у форматі html

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.