Наразі я використовую Beautiful Soup для розбору HTML-файлів та дзвінків get_text(), але, схоже, мені залишається багато \ xa0 Unicode, що представляє пробіли. Чи є ефективний спосіб видалити їх у Python 2.7 та змінити їх у пробіли? Я думаю, що більш узагальненим буде питання, чи є спосіб видалити форматування Unicode?
Я спробував використовувати: line = line.replace(u'\xa0',' ')як запропонував інший потік, але це змінило \ xa0's на u, тож тепер я маю "u" скрізь. ):
EDIT: Здається, цю проблему вирішує str.replace(u'\xa0', ' ').encode('utf-8'), але, мабуть, .encode('utf-8')без проблем replace()це може виплеснути навіть більш дивні символи, наприклад, xx2. Хтось може це пояснити?
u''s замість ''s. :-)
u' 'заміну, а не ' '. Чи є оригінальна рядок unicode?