Я хочу надрукувати перші 1000 символів у кодованому файлі UTF-8. Я знаю, що керівник Інструмент може друкувати перші n байтів файлу, але він може вирізати символ в середині так, що я отримую спотворений вихід в кінці.
Я можу написати програму awk для цього, але чи можу я знати, чи є простіший спосіб?
PS. Я знайшов це нерозумно, що керівник і хвіст не підтримують кодування символів (змінна середовища LANG), в той час як інші інструменти, такі як вирізати , туалет , sed і awk всі підтримують кодування символів.
Ще одна річ, про яку потрібно думати - навіть якщо ви виводитимете цілі кодові точки, ви все одно зможете розділити базові символи з їх наступних символів. Якщо це проблема для вашої програми, вам потрібно зробити щось більш складне, ніж відповідь досі.
—
Richard Kettlewell