Греп в Microsoft Word?


10

Греп в Microsoft Word?

Я хотів би витягнути всі рядки із заданого рядка із документа слова. У світі Unix ... греп робить це без збоїв. Windows для мене менш очевидна.

Відповіді:


10

За допомогою Cygwin (або доступу до машини Linux) ви могли

antiword file.doc | grep "my phrase"

або

catdoc file.doc | grep "my phrase"

Існує безліч перетворювачів формату файлів командного рядка, щоб схопитися аналогічно.

Чисто в Word може бути Ctrl + F (Find), а потім Find All - однак я не впевнений, чи всі версії MS Word мають кнопку Find All .


2
Коли я побачив назву питання, я подумав: "Так! Це було б добре, чи не так". Ніколи більше не варто недооцінювати програмістів GNU.
Phoshi

Найновіша версія catdocsegfault у кожному .doc/ .docxфайлі, який я даю, і antiwordпросто каже мені, що мій документ "не є документом Word". Чи знаєте ви якісь інші варіанти?
detly

Нічого, що я використав ... Швидкий пошук показує, що docx2txtіснує в сховищах Debian - може працювати. Я також роздивився б утиліту перетворення формату командного рядка OpenOffice / LibreOffice (unoconv), яку можна було б використовувати для тих же цілей.
хронос

3

Я знаю, це звучить примітивно, але те, що заважає тобі зберегти файл як .txt, а потім зірвати його на свій смак.


2
Маючи сотні для того, щоб це зробити, є для чого.
tchrist

1

Що означає "рядок" у контексті Word? Відображається рядок, який змінюється, якщо ви щось робите для форматування сторінки? Абзац? Щось ще?

Ви можете виконати купу речей за допомогою функцій пошуку та заміни Word, включаючи зміну форматування та інших неочевидних речей, але всі вони діятимуть лише на сам текст пошуку, а не на будь-який навколишній текст.


grep має, що регекс закоханий, хоча!
Phoshi

1

Існує підтримка документів MS - Word, PowerPoint, Excel - в CRGREP, який я розробив як безкоштовний інструмент відкритих джерел . Він також охоплює інші важкі для пошуку такі речі, як таблиці баз даних, зображення, аудіо, архіви, PDF та їх комбінації. Весело.


0

PowerGREP зробить саме те , і швидко, але не безкоштовно. Варто кожної копійки, хоча, на мій погляд. Крім того, існує 30-денна безкоштовна пробна версія.

Знімок екрана пошуку PowerGREP через файл Word


0

Не вистачає репліка для коментарів, але я можу побачити, що ця проблема щодо doc vs docx обговорювалася, тому кожен, хто переслідує нитку (як я), може вважати це корисним.

Вам не потрібен спеціальний інструмент для файлів docx. docx - це блискавки XML-файлів.

Щоб витягти та зняти XML, спробуйте щось на основі

unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'

з командного рядка fu


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.