Наразі я використовую Beautiful Soup для розбору HTML-файлів та дзвінків get_text()
, але, схоже, мені залишається багато \ xa0 Unicode, що представляє пробіли. Чи є ефективний спосіб видалити їх у Python 2.7 та змінити їх у пробіли? Я думаю, що більш узагальненим буде питання, чи є спосіб видалити форматування Unicode?
Я спробував використовувати: line = line.replace(u'\xa0',' ')
як запропонував інший потік, але це змінило \ xa0's на u, тож тепер я маю "u" скрізь. ):
EDIT: Здається, цю проблему вирішує str.replace(u'\xa0', ' ').encode('utf-8')
, але, мабуть, .encode('utf-8')
без проблем replace()
це може виплеснути навіть більш дивні символи, наприклад, xx2. Хтось може це пояснити?
u''
s замість ''
s. :-)
u' '
заміну, а не ' '
. Чи є оригінальна рядок unicode?