Я експортую вміст MS Word у звичайний текст для використання з утилітами тексту та файлів. У мене є обмеження, коли функція нумерації рядків була включена в програмному забезпеченні MS, і будь-яке посилання на номери рядків у кінцевому висновку повинно відповідати цій нумерації. Тому введіть "нумерацію рядків":
( По, Е.А. )
Очевидно, що для Word такий тип нумерації не порушує рядки на новому рядку , він розриває "рядки" після правого поля (або чогось іншого). Такий сценарій, як docx2txt
правило, не враховує це, як здається, і розбиває рядки на новому рядку. Тож якщо я використовую grep -n
нумерацію, рядки не відповідають функції вихідних номерів рядків, як показано вище. З документації не зовсім зрозуміло, як мені потрібно редагувати скрипт Perl для перетворення файлів так, як мені потрібно в цьому випадку:
our $config_newLine = "\n"; # Alternative is "\r\n".
our $config_lineWidth = 80; # Line width, used for short line justification.
Я спробував підставляючи \n
для \r\n
але це не схоже на роботу для мене. Тож я вдався до експорту документів безпосередньо з Word із такими налаштуваннями (збережіть як звичайний текст , на v.2013,64pc):
- Unicode (UTF-8)
- Вставити розриви рядків + кінцеві рядки за допомогою (CR / LF)
- Дозволити заміну символів
І тепер дійсно , коли я використовувати ті .txt
файли , є ідеальний збіг між номерами рядків , особливо нумерації джерела і grep -n
виведення.
- Чи є якась конкретна конфігурація / процес, про який я повинен знати,
docx2txt
або аналогічна утиліта командного рядка, яка дозволила б мені конвертувати свої файли .docx у звичайний текст, зберігаючи розриви рядків, не вдаючись до Word, як я? - Які найкращі практики для експорту документів MS Word (які можуть містити символи з наголосом) до звичайного тексту для використання з утилітами файлів / текстів щодо розривів рядків та форматування; чи є якісь негативні наслідки з налаштуваннями, які я вибрав для експорту, тобто вставкою CR / LF?
Зразок
Як було запропоновано, я надаю зразок. У цьому архіві rar я поєднав файл .docx з простими абзацами та експортував його .txt файл, використовуючи Word з вищезазначеними параметрами. Останнє можна порівняти із запуском за замовчуванням docx2txt
у вихідному файлі.