Запитання з тегом «text-processing»

Маніпуляція чи вивчення тексту програмами, сценаріями тощо.

6
Фільтрування недійсного utf8
У мене є текстовий файл у невідомому або змішаному кодуванні. Я хочу побачити рядки, що містять послідовність байтів, що не є дійсним UTF-8 (шляхом передачі текстового файлу в якусь програму). Рівно, я хочу відфільтрувати рядки, які є дійсними UTF-8. Іншими словами, я шукаю .grep [notutf8] Ідеальне рішення було б портативним, …

10
Як перевірити, чи використовує файл CRLF або LF, не змінюючи його?
Мені потрібно періодично запускати команду, яка забезпечує збереження деяких текстових файлів у режимі Linux. На жаль, dos2unixзавжди модифікує файл, що може зіпсувати часові позначки файлів і папок і спричинити зайві записи. Сценарій, який я пишу, є в Bash, тому я вважаю за краще відповіді, засновані на Bash.

13
Як надрукувати всі рядки після збігу до кінця файлу?
Вхідний файл1: dog 123 4335 cat 13123 23424 deer 2131 213132 bear 2313 21313 Я даю відповідність шаблону з in other file(наприклад, dog 123 4335з file2). Я збігаюсь з шаблоном лінії, dog 123 4335і після друку всіх рядків без рядка відповідності вихідний: cat 13123 23424 deer 2131 213132 bear 2313 …

19
Чи є надійний інструмент командного рядка для обробки файлів CSV?
Я працюю з файлами CSV і іноді потрібно швидко перевірити вміст рядка або стовпця з командного рядка. У багатьох випадках cut, head, tailі друзі будуть робити цю роботу; однак вирізання не може легко впоратися з такими ситуаціями, як "this, is the first entry", this is the second, 34.5 Тут перша …

3
Як я можу перевірити кодування текстового файлу ... Чи дійсно це та що це?
У мене є кілька .htmфайлів, які відкриваються в Gedit без будь-якого попередження / помилки, але коли я відкриваю ці самі файли Jedit, він попереджає мене про недійсне кодування UTF-8 ... Мета-тег HTML зазначає "charset = ISO-8859-1". Jedit дозволяє Список запасних кодувань та Список кодуючих автодетекторів (на даний момент "BOM XML-PI"), …

8
Як конвертувати TXT у PDF?
Я хочу конвертувати .txtфайли в .pdf. Я використовую це: ls | while read ONELINE; do convert -density 400 "$ONELINE" "$(echo "$ONELINE" | sed 's/.txt/.pdf/g')"; done Але це призводить до однієї "помилки" - якщо в текстовому файлі є дуже довгий рядок, він не перетворюється. Введення тексту Вихідний PDF - Також було …

5
Видаліть останній рядок із файлу
Я використовую sed для швидкого видалення рядків з певним положенням як sed '1d' sed '5d' Але що робити, якщо я хочу видалити останній рядок файлу, і я не знаю кількість рядків (я знаю, що можу отримати це за допомогою wcта кількох інших хитрощів). В даний час, використовуючи вирішення headта tailпоєднуючи …

5
Замінити змінні середовища у файлі їх фактичними значеннями?
Чи є простий спосіб замінити / оцінити змінні середовища у файлі? Скажімо, у мене є файл, config.xmlякий містить: <property> <name>instanceId</name> <value>$INSTANCE_ID</value> </property> <property> <name>rootPath</name> <value>/services/$SERVICE_NAME</value> </property> ... тощо. Я хочу замінити $INSTANCE_IDу файлі значення INSTANCE_IDзмінної оточення, $SERVICE_NAMEзначенням SERVICE_NAMEenv var. Я не знаю апріорі, які параметри середовища потрібні (а точніше, я …

4
Як отримати лише унікальні результати, не сортуючи дані?
$ cat data.txt aaaaaa aaaaaa cccccc aaaaaa aaaaaa bbbbbb $ cat data.txt | uniq aaaaaa cccccc aaaaaa bbbbbb $ cat data.txt | sort | uniq aaaaaa bbbbbb cccccc $ Результатом, який мені потрібен, є відображення всіх рядків з оригінального файлу, видалення всіх дублікатів (не тільки послідовних), зберігаючи початковий порядок висловлювань …


6
команда для компонування вкладки відокремлено список
Іноді, я отримую, наприклад, список відокремлених вкладок, який не зовсім вирівняний, наприклад var1 var2 var3 var_with_long_name_which_ruins_alignment var2 var3 Чи є простий спосіб вирівняти їх? var1 var2 var3 var_with_long_name_which_ruins_alignment var2 var3


4
Перехоплення від кінця файлу до початку
У мене є файл з приблизно 30.000.000 рядків (Радіус-облік), і мені потрібно знайти останню відповідність заданому шаблону. Команда: tac accounting.log | grep $pattern дає те, що мені потрібно, але це занадто повільно, тому що ОС повинна спочатку прочитати весь файл, а потім відправити в трубу. Отже, мені потрібно щось швидко, …

4
Найпростіший спосіб коментувати / коментувати певні рядки за допомогою командного рядка
Чи є можливість коментувати / коментувати сценарій shell / config / ruby ​​за допомогою командного рядка? наприклад: $ comment 14-18 bla.conf $ uncomment 14-18 bla.conf це додасть або видалить #знак bla.confon-line 14до 18. Зазвичай я використовую sed, але я повинен знати вміст цих рядків, а потім зробити операцію пошуку-заміни, і …

1
Як довести до відома не-ascii (unicode) символів?
Я намагаюся видалити деякі символи з файлу (UTF-8). Я використовую trдля цієї мети: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat Файл містить деякі іноземні символи (наприклад, "Латвійська" або "àé"). trСхоже, їх не розуміє: він трактує їх як не-альфа і видаляє теж. Я спробував змінити деякі мої параметри локалі: LC_CTYPE=C LC_COLLATE=C tr …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.